FinanseKDF Dialog

Za duża, żeby zrozumieć – rzecz o percepcji danych. Cz. I

Dobra grafika statystyczna powinna pokazywać informację zawartą w danych liczbowych. Powinna to robić w taki sposób, by łatwo było odczytać i zrozumieć związek pomiędzy informacją a danymi. Obrazować, jak duże są pewne wielkości, jak ryzykowne są pewne rozwiązania, jak wyglądają zależności pomiędzy zjawiskami. Aby przekaz był zgodny z zamierzeniami, musimy być świadomi sposobu, w jaki nasz mózg postrzega liczby i zależności, w jaki sposób myśli o danych i w jakich sytuacjach postrzeganie liczb lub zależności może być zniekształcone. – mówi prof. Przemysław Biecek.

Publikując jego esej „Percepcja danych” pokażemy, jakie trudności są związane z percepcją dużych liczb, rzadkich zdarzeń, przypadkowości oraz zależności. Wiedząc o tych trudnościach, możemy lepiej zaprojektować wizualizację danych, aby ułatwić odbiorcy poprawne zrozumienie informacji. Dzisiaj część pierwsza eseju: „Za duża, żeby zrozumieć”. Kolejne są zatytułowane

„Dziękuję za odpowiedź, ale nie o to pytałem”,

„Nie wszystko ma swoją przyczynę”,

„Mit jedynej prawdziwej historii”

 

Iwona D. Bartczak

____________________________________________________________________

 

Okazuje się, że większości osób operacje na bardzo dużych lub bardzo małych liczbach sprawiają znaczne kłopoty. Spora część dziennikarzy ma problem z rozróżnieniem miliarda od biliona, co widać po bezrefleksyjnym i błędnym tłumaczeniu angielskiego billion na polskie słowo bilion. Dla większości ludzi, z wyjątkiem być może fizyków, miliard czegokolwiek jest pojęciem czysto abstrakcyjnym. Podobnie abstrakcyjnym, jak dla mieszkańców plemienia Pirahã liczba dziesięć. Fizycy, przechodząc od skali kosmologicznej do subatomowej, przeskakując przez dwadzieścia rzędów wielkości, nabierają pewnych intuicji, obcych jednak większości ludzi.

 

Z drugiej strony, żyjąc w dzisiejszym świecie, na co dzień obcujemy z dyskami o pojemności terabajtów, oglądamy filmy zapisane jako pliki o objętości gigabajtów, słyszymy o bilionowych zmianach w globalnych gospodarkach. Słysząc o budżetach państw czy aferach korupcyjnych, słyszymy czasem o milionowych lub miliardowych kwotach. Skoro tak duże liczby są wszędzie wokół, można by przypuszczać, że je rozumiemy.

 

Nic bardziej mylnego!

Przeprowadźmy prosty eksperyment. Zapytaj, drogi Czytelniku, dowolną osobę o to, czy słowo biliard jest odpowiednikiem przedrostka giga czy tera. W grupie osób o wykształceniu humanistycznym rozkład odpowiedzi pomiędzy giga a tera jest bliski proporcjom pół na pół. W grupie osób o ścisłym wykształceniu opcję tera wybiera około trzech czwartych ankietowanych, co nie jest dobrym wynikiem, ponieważ biliard odpowiada tak naprawdę przedrostkowi peta.

No dobrze, to pytanie można uznać za podchwytliwe. W końcu żadna z sugerowanych opcji nie była prawdziwa, więc ktoś, kto trudno znosi uświadomienie sobie swojej niewiedzy może argumentować, że sugerowanie złych odpowiedzi wpłynęło na pomyłkę. Zadajmy więc pytanie bez żadnych kruczków. Co więcej, takie, na które teoretycznie każdy z nas powinien znać odpowiedź.

Ile wynosi dług publiczny Polski?

Przyjmijmy, że interesuje nas wartość długu na dzień 11 października 2013. Dla większości osób “ta liczba” jest tak niewyobrażalna, że nawet, jeżeli czytali o niej rano, to jej nie zapamiętali. Odpowiedzią poprawną 11 października 2013 roku o 15:27 było 937 457 092 004 PLN. Ta liczba ma 12 cyfr, ale nawet jej zapamiętanie, chociażby z dokładnością do pierwszych dwóch cyfr, jest trudne. 940 miliardów. Zdecydowana większość z nas nie doświadczyła nigdy obserwacji miliarda czegokolwiek, 940 miliardów to tak abstrakcyjna liczba, że nie sposób jej zapamiętać

10046592264?profile=RESIZE_400xZ kilku osób, które akurat spotkałem na kawie i które zapytałem o wielkość długu publicznego, tylko jedna podała odpowiedź nie różniącą się od prawdziwej o więcej niż rząd wielkości (to znaczy pozostałe odpowiedzi były albo ponad 10 razy niższe, albo 10 razy wyższe niż prawdziwa wartość).

Osoba, która była blisko poprawnej odpowiedzi, oczywiście nie pamiętała wartość długu, ale miała orientacyjne wyobrażenie, ile wynosi wartość długu na jednego mieszkańca. Przyjęła, że wartość długu to około 20 tysięcy na mieszkańca, a w Polsce żyje około 38 milionów Polaków. Te dwie liczby można dosyć łatwo wymnożyć w pamięci i otrzymać 760 miliardów. Ta ocena była możliwa tylko dlatego, że jesteśmy w stanie sobie wyobrazić, ile to jest 20 tysięcy. To kwota, z którą spotykamy się, kupując samochód, rozliczając roczne podatki i jest dla nas bardziej przystępna niż miliardy czy biliony.

Wielkość 940 miliardów jest poza zakresem zrozumienia wielu osób.

Jak to możliwe, że dziennikarz, tłumacząc artykuł z angielskojęzycznego źródła, myli angielskie billion z polskim bilionem? Zawyża opisywaną wartość tysiąckrotnie i nawet tego nie zauważa? Z pewnością tysiąc jabłek i jedno jabłko to dwie różne wielkości i oczyma wyobraźni widzimy o ile się różnią. Ale bilion a biliard kilometrów? Czy słońce jest więcej czy mniej niż bilion kilometrów od Ziemi? Mniej. W przybliżeniu 150 miliardów kilometrów czyli 150 tera metrów.

Czy jesteśmy bezbronni w obliczu biliardów, czy też jest sposób, by oswajać duże liczby? Są sposoby, dwa najczęściej stosowane zostały już wymienione.

Pierwszy to odnoszenie się do jednostek, które jesteśmy w stanie odtworzyć w pamięci. Z uwagi na rewolucję komputerową można się odwoływać do przedrostków kilo, mega, giga i tera i, przynajmniej wśród osób często korzystających z komputera, mamy szansę na poprawne skojarzenia. Mówienie o terazłotych długu publicznego nie jest zbyt powszechne, ale wielu osobom znacznie bardziej zapada w pamięć i pozwala na znacznie łatwiejsze operacje na tej kwocie niż mówienie o bilionie złotych.

Rysunek 1: Rachunek od państwa 2012, opracowany przez Fundację Forum Obywatelskiego Rozwoju. Źródło: http://www.dlugpubliczny.org.pl/ . Można tam sprawdzić również aktualną wartość długu można sprawdzić.

Drugi sposób to rozkład dużej liczby na iloczyn dwóch lub trzech mniejszych. Taka operacja nazywa się faktoryzacją i w ogólności jest to trudne zagadnienie, ale przy przyzwoleniu na ograniczoną dokładność faktoryzację dużych liczb można wykonać w miarę łatwo.

Świetnym tego przykładem jest projekt Fundacji Forum Obywatelskiego Rozwoju Rachunek od państwa, przedstawiający wydatki publiczne Polski w formie rachunku dla obywatela. Rachunek, który rozbija roczne wydatki państwa, wyrażane w miliardach złotych, na głowę mieszkańca, przez co znów mamy do czynienia z liczbami, które możemy sobie wyobrazić. Prosty zabieg pozwala na sprowadzenie olbrzymich sum, do takich, które możemy zrozumieć i odnieść do codziennego życia. Przykładowo rocznie średnio płacimy na emerytury ZUS 2,4 tysiąca złotych, to duża część z 18 tysięcy, czyli całej kwoty rachunku. Prawie 4,5 tysiąca złotych rocznie na obsługę samych emerytur i rent? Z tej perspektywy łatwiej ocenić, czy to dużo, czy mało.

Z szacowaniem dużych wielkości związane jest jeszcze jedno ciekawe zjawisko określane jako “kotwiczenie”, które jest częstym źródłem zniekształceń dla naszych oszacowań. O co w nim chodzi?

Przeprowadźmy wirtualny eksperyment. Przypuśćmy, że zadajemy grupie osób pytanie: Jak uważasz, czy dług publiczny jest wyższy, czy niższy niż 100 miliardów złotych, a właściwie, jak uważasz, ile on wynosi? Zbieramy odpowiedzi, liczymy średnią oszacowań. Jak uważacie, czy będzie się ona różniła od średniej wyliczonej z odpowiedzi na pytanie: Jak uważasz, czy dług publiczny jest wyższy, czy niższy niż 1 000 miliardów złotych, a właściwie jak uważasz, ile on wynosi?

Najprawdopodobniej w obu tych eksperymentach otrzymalibyśmy bardzo różne średnie. (Różnicę czyni to wymienienie raz 100 miliardów a raz 1 000 miliardów).

W książce [Daniel Kahneman. Thinking, Fast and Slow Farrar, Straus and Giroux, 2011] Daniel Kahneman, laureat nagrody Nobla w dziedzinie ekonomii za prace nad decyzjami podejmowanymi w warunkach niepewności, opisuje podobny, tym razem przeprowadzony naprawdę eksperyment. W oryginalnym badaniu pytano: Czy najwyższa sekwoja ma 365 m? Właściwie ile metrów może mieć najwyższa sekwoja? Na tak zadane pytanie średnia z odpowiedzi wynosiła 257 m, ale już gdy w pierwszej części pytania zasugerowano 55 m, to średnia z odpowiedzi spadła do 87 m.

Zaskakujące? Zaproponowanie punktu odniesienia znacząco zmienia wartość szacunków. Czy zjawisko zakotwiczenia ma związek z wizualizacją danych? Oczywiście. Każdy element wykresu może pełnić rolę takiej kotwicy. Jeżeli w tle umieścimy zdjęcie wieży Eiffela, natychmiast wzrośnie średnie wyobrażenie dotyczące wielkości prezentowanych liczb, ponieważ w kontekście pojawi się kotwica mówiąca “duże”. Dla jednych jest to argument, aby unikać wszelkich zbędnych elementów i nie obciążać percepcji przy czytaniu wykresu, dla innych jest to sugestia, by dodawać jak najwięcej zbędnych elementów tak, by percepcję odbiorcy wykrzywić w pożądany sposób.

(Typowe, mało finezyjne przykłady celowych zniekształceń, obejmują wszelkiego rodzaju strzałki skierowane ku górze czy zdjęcia pieniędzy przy wykresach, które powinny pokazywać większe wzrosty, niż ma to miejsce w rzeczywistości.)

Jak długo trwa takie zakotwiczenie? Czy na odpowiedź wpływa tylko kilkusekundowy kontekst? Okazuje się, że w wielu przypadkach na nasze oceny i zachowania mogą mieć wpływ zdarzenia, obrazy, komunikaty, które otrzymaliśmy nawet kilkanaście minut wcześniej. W książce [Malcolm Gladwell. Blink: The Power of Thinking Without Thinking Back Bay Books, 2005] znaleźć można kilka takich przykładów podanych w formie ciekawych anegdotek. Jedna z nich opisuje doświadczenie, w którym badani musieli w myśli odpowiadać na pytania. Pytania były tak dobrane, by odpowiedzi dotyczyły słów związanych z cierpliwością (jedna grupa) lub ze zniecierpliwieniem (druga grupa). Okazuje się, że to zadanie wpływa na zachowania badanych nawet do kilkunastu minut po zakotwiczeniu. Osoby, które myślały o słowach związanych z cierpliwością, nawet po kilkunastu minutach zachowywały się bardziej cierpliwie.

Cdn.

10046684881?profile=RESIZE_400x

Przemysław Biecek, profesor Politechniki Warszawskiej i Uniwersytetu Warszawskiego, lider MI2DataLab http://mi2.mini.pw.edu.pl/, od kilkunastu lat pracuje nad metodami statystycznej analizy danych. Więcej o nim   http://biecek.pl/Eseje/indexAutor.html 

Cały esej znajduje się tutaj  http://biecek.pl/Eseje/indexDane.html