Što nam govore početne znamenke brojeva
Zašto se zove Benfordov zakon, a ne Newcombov i puno drugih zanimljivih stvari možete pronaći u dva izvora na hrvatskom jeziku. Prvi izvor upućuje na povijest i primjere korištenja, a drugi izvor ima veću teoretsku pozadinu. U ovim stručnim člancima možete spoznati povijesnu, matematičku i praktičnu pozadinu Benfordovog zakona. Za nas ostale, manje s(p)retne u matematici, jedna puno prizemnija definicija: u nekom većem skupu brojeva prva znamenka u broju ima vjerojatnost pojavljivanja prema sljedećoj slici.

Još jednostavnije rečeno, prva znamenka brojeva u mnogim realnim skupovima podataka slijedi specifičnu logaritamsku distribuciju, gdje se znamenke 1, 2 i 3 kao prve znamenke brojeva pojavljuju puno češće nego ostale znamenke. Najjednostavnije rečeno, brojevi koji započinju s 1 (od 10 do 19, od 100 do 199, od 1.000 do 1.999, od 10.000 do 19.999, …) pojavljuju se najčešće, čak u 30,1 % svih podataka. Za ostvarenje i primjenu Benfordovog zakona potrebna su tri uvjeta:
- skup (uzorak) koji se promatra mora biti nepristran (prirodan),
- podatci nisu potpuno slučajni, ovise o nekom procesu,
- podatci ne smiju biti jako ograničeni.
Prvi uvjet pokazuje i najčešću primjenu – prijevare u financijskom svijetu. Ljudi kod lažiranja podataka ne mogu pobjeći od određenih navika (predrasuda) zbog kojih se primjenom Benfordovog zakona takve rabote brzo i jednostavno otkrivaju.
U slučaju nezavisnih podataka imamo statistiku. Izvlačenje brojeva lota ne podliježe Benfordovom zakonu jer svi brojevi imaju jednaku vjerojatnost izvlačenja. Trebamo neku ovisnost između podataka. U Hrvatskoj takav primjer imamo u popisu stanovništva 2011. godine gdje se skup podataka za oko 6.700 naselja i gradova ravnao po Benfordovom zakonu. Ljudi iz osobnih, obiteljskih, obrazovnih i inih razloga (procesa u njihovim životima) žive na određenom području.
Treći uvjet (ograničenje podataka) se najčešće ilustrira mjerenjem inteligencije. IQ podliježe normalnoj razdiobi i time je uspostavljen raspon (ograničenje) podataka; najčešće između 55 i 145, a rijetko ispod 55 ili iznad 145.
Ima li Benfordov zakon primjenu u prometu, gdje je većinom sve procesuirano, međusobno uvjetovano i, na neki način, statistički definirano (ograničeno), sve suprotno od pretpostavki pojavnosti Benfordovog zakona? Ima i pokazat ću na dva primjera. Za razliku od negativnih primjera financijskih forenzičara, pokazat ću dva afirmativna primjera potvrđivanja (ne)kvalitete nekih rješenja i procesa.
Republika Hrvatska od 1971. godine broji cestovni promet. Podatci za posljednjih 15-tak godina su dostupni su stranicama tvrtke Hrvatske ceste d.o.o., koja i provodi brojanja, na ovoj poveznici. Podatci za 2023. godinu pokazuju da na:
- 96 brojila na autocestama ne možemo prihvatiti hipotezu usklađenosti podataka s Benfordovim zakonom,
- 470 brojila na državnim cestama možemo prihvatiti hipotezu o usklađenosti podataka s Benfordovim zakonom,
- 243 brojila na županijskim cestama možemo prihvatiti hipotezu o usklađenosti podataka,
- 68 mjesta na lokalnim cestama možemo prihvatiti hipotezu o usklađenosti podataka.

Znači li to da imamo premalo brojila na autocestama ili da su krivo raspoređena? Moguće. Moguć je i odgovor da postoji komponenta ograničenosti (uvjetovanosti) podataka zbog sezonskih (turističkih) tokova cestovnog prometa. Za preostale tri kategorije podatci podliježu Benfordovom zakonu. Osim toga, radi se o jednoj godini. Moguće je prethodnih godina situacija bila drugačija. Sve provjere su izvršene hi-kvadrat testom s razinom značajnosti 5 %.
Brojenja prometa, kada se promatraju sva brojila zajedno, udovoljavala su uvjetima Benfordovog zakona u 2023. godini:
- brojila prometa su automatska – nepristrana,
- podatci su uvjetovani cestovnom mrežom, naseljenošću, gospodarskim aktivnostima i dr.,
- dnevni, tjedni i sezonski periodi upućuju na (ne)ograničenost podataka,
pa zaključujemo da korištenjem brojenja prometa dobivamo relevantne i vjerodostojne podatke o potražnji cestovnog prometa. Ovo je još jedna znanstvenostručna potvrda činjenice o kvaliteti i cjelovitosti brojenja cestovnog prometa tvrtke Hrvatske ceste d.o.o..

Zaključak. Ako nam treba makropodatak nekog područja glede PGDP i PLDP – imamo točan i relevantan izvor. Ako nam treba ulazni podatak oko kojeg ćemo na nekom području dublje istraživati mezo- i mikro- skopske aktivnosti, podatci o PGDP i PLDP su relevantne ulazne veličine za početak istraživanja i provođenje detaljnijih mjerenja. To nam dokazuje primjena Benfordovog zakona. Tko ne vjeruje da su podatci iz 2023. godine relevantni za ovakav zaključak, na Internetu su uvijek dostupni podatci za proteklih 15-tak godina pa se može i sam(a) (raz)uvjeriti.
Drugi primjer je iz područja djelovanja Ministarstva unutarnjih poslova. Opet sam malo zavirio u statistiku prometnih nesreća. Već sam u prijašnjim temama pokazao priličnu (ne)očekivanu statističku korelaciju između određenih pokazatelja sigurnosti prometa: zakon velikih brojeva, Bayesov i frekvencijski pristup, regresiju na srednju vrijednost. Gdje se može naći mogućnost primjene Benfordovog zakona po pitanjima sigurnosti cestovnog prometa u Hrvatskoj? Veličina Hrvatske, (ne)razvijenost područja i cestovne mreže, određeni cestovni koridori koji su (ne)interesantni tijekom turističke sezone, sve to ruši pretpostavke primjene Benfordovog zakona. Primjenu sam pronašao u podacima sigurnosti prometa po policijskim postajama. Prema dostupnom Biltenu za 2023. godinu ukupno ima 118 policijskih postaja, a njih 100 je u 2023. godini obavljalo očevide prometnih nesreća. Učešće prve znamenke u broju obavljenih očevida prometnih nesreća u 2023. godini podliježe Benfordovom zakonu. Provjera je izvršena hi-kvadrat testom s razinom značajnosti 5 %.

Policija zna svoj posao, ima puno godina iskustva i znanja. Ovaj mali štiklec je još jedna potvrda, ovaj put potpomognuta matematičkim argumentom, a to nikada ne škodi. Nadležnost, lokacije, gustoća i organiziranost policijskih postaja pokazuju jednake uvjete dostupnosti za uviđaje prometnih nesreća na cijelom teritoriju Republike Hrvatske . To pokazuje Benfordovov zakon i podatci iz 2023. godine. Tko ne vjeruje, na Internetu su dostupni podatci za proteklih 20-tak godina pa se može i sam(a) (raz)uvjeriti.
Puno puta u prometnom inženjerstvu imamo sreću pa možemo sljubiti podatke s nekim opće korištenim matematičkim alatom. Ako smo malo podozrivi prema ulaznim podatcima, a znamo da se ne radi u potpuno slučajnim, niti jako ograničenim podatcima, ako imamo jako puno podataka iz nekog područja (procesa) s mnogo (utjecajnih) čimbenika koji (ipak) ne ograničavaju raspon pojave podataka (veličina), onda imamo kandidata za primjenu Benfordovog zakona.