tichy tichy
231
BLOG

marginesowo o prawie Benforda

tichy tichy Nauka Obserwuj temat Obserwuj notkę 5


O prawie Benforda pojawił się komentarz pod poprzednią notką, na marginesie problemu z autentycznością wyborów w Iranie (tudzież wiarygodności, rzetelności i kompetencji mediów, a zwłaszcza ich pracowników).
 
Cyncynat podrzucił kilka prac Teda Hilla,
dziś emerytowanego profesora matematyki na GaTech
 i w szczególności napisał  "przejscia do dyskretnego rozkladu to zupelnie nie widze". Zacząłem odpowiadać, i w rezultacie nadmiernie żem się rozpisał.

Otóż, przejścia nie widać, bo go nie ma - dlatego też, że go nigdy nie ma. Podobnie - choć z grubsza - przejścia z liczb rzeczywistych do wymiernych nie ma, bo "tak naprawdę" liczb rzeczywistych nie ma, są co najwyżej tylko ich "zadowalające przybliżenia". Rzecz nie tyle w przejściu z ciągłych rozkładów do dyskretnych, ale od idealnych do obserwowalnych.

Zaczyna się problem od tego, ze "naturalne prawdopodobieństwo" częstościowe - zwiększając rozmiar próbki n i licząc częstość danego wydarzenia W,

"p"_n = (liczba zajść W w próbce o długości n)/n --> P(W)

- tak naprawdę żadnym prawdopodobieństwem nie jest, bo łamie postulat przeliczalnej addytywności. Stąd, wszelkie próby stosowania idealnych praw probabilistyki są czystym li tylko naciąganiem (choć pożytecznym, ale często prowadzącym do paradoksów i dziwnych konkluzji).

Np. licząc ową frekwencję dla wydarzenia "pierwsza cyfra numeru =1", to zaczynając od p(1)=1, potem p(n)=1/2,1/3, aż do 1/9, gdy następuje skok przy p(10)=2/10=1/5, potem wzrost aż do p(19)=11/19, po czym znów spadek aż do p(99)=11/99, i znów skok do p(100)=12/99, i wzrost aż do p(199)=111/200, etc.

W sumie, toto "p-o" oscyluje między 0.11...=1/9 a 0.55...=5/9.

Jakie więc jest "prawdziwe"? Może średnia tych krańców, czyli 0.33...=1/3?

Empiryka, podbudowana tuzinami teorii mającymi empirykę wyjaśnić, prowadzi do wyboru p=0.301...=log(2) (logarytm dziesiętny).

Zatem Ted Hill buduje jeszcze jedną teorię, wcale zgrabną i elegancką, która zjawisko występowania częstości pierwszej jedynki zgodnie z logarytmem z dwójki wyjaśnia. Podobnie - innych cyfr, podobnie - na następnych miejscach znaczących. Teoria polega na zbudowaniu ścisłego modelu probabilistycznego, w którym te powyższe pseudoprawdopodobieństwa stawałyby się prawdziwymi i rygorystycznymi.


Np., "p"(1 jako drugie cyfry znaczącej)=log(3/2), i ogólnie, dla k-tej cyfry znaczącej, log(k+1)/k. To tzw. prawo Benforda.

Jak widać z listy publikacji, publikuje ją w przeróżnych wariantach, dla przeróżnych czytelników - od czystych matematyków po różnego kalibru niematematyków. Z tych bardziej średnich dla środka (circa) populacji czytelniczej wydaje się być  niniejsza publikacja bardziej przystępna . Zaś zsyłka doń występuje we wpisie w Wikipedii.

Owe prawo Benforda związane jest z niezmienniczością skali, to znaczy - wyboru jednostek fizycznych. Na przykład, gdy objętość mierzy się w litrach czy galonach - kwestia przemnożenia przez stałą - nie ma wpływu. Dokładniej - to właśnie definiuje prawo Benforda - ów logarytmiczny rozkład pojawia się wtedy i tylko wtedy, gdy skala nie ma znaczenia.

Bardziej subtelna kwestia dotyczy wyboru bazy - czy 10 czy innej. Dane (nawet w dziesiętnym systemie), często podaje się - czy to w setkach, czy to tysiącach, czy innych potęgach 10....   Wiąże się to z zaokraglaniem, np., gdy zamiast "1734" mówi się "1,7 tysiąca"... Niezmienniczość bazy, to - u Hilla - to samo p-o bez względu na potęgę.

Powszechność występowania prawa Benforda tłumaczy Hill "centralnym twierdzeniem granicznym". Nie tylko w sytuacji czystej, gdy dane podobnego typu są porównywane, ale też i w mieszanej,  gdy razem rozważa się - i miesza - np., wielkości fizyczne, socjometryczne, biologiczne, finansowe, czy nawet zliczanie liter w tekstach. W granicy powstaje ów rozkład logarytmiczny. Oczywiście, przy pewnych założeniach - nieczułości na skalę, brak "biasu", niezależności kolejnych próbek i w ramach każdej próbki.

Nie dziwota więc, że odchyłka od prawa Benforda sugeruje bias - manipulację (choćby nieświadomą) danymi. Uważny czytelnik zauważy, że odchyłka może sugerować też wrażliwość na skalowanie, lub też naruszenie niezależności, bądź  - zbyt małą próbkę.

Małość jest czynnikiem niebłahym, albowiem mierzy się ją - czy też "wielkość" - logarytmem. Zatem próbka o liczności 10 tysięcy daje zaledwie logarytm 4, a zwiększenie jej do 100 tysięcy - raptem logarytm 5, a do miliona - raptem 6...

A pamiętajmy, że twierdzenie graniczne, jak sama nazwa wskazuje - daje zgodność z prawem dla wielkich n. Że 4 lub 5 lub nawet 6 to nie takie wielkie liczby?

Ano, nie takie wielkie.

tichy
O mnie tichy

tichy jaki jest każdy widzi

Nowości od blogera

Komentarze

Pokaż komentarze (5)

Inne tematy w dziale Technologie