Nie wszystko ma swoją przyczynę – rzecz o percepcji danych. Cz. III
Dobra grafika statystyczna powinna pokazywać informację zawartą w danych liczbowych. Powinna to robić w taki sposób, by łatwo było odczytać i zrozumieć związek pomiędzy informacją a danymi. Obrazować, jak duże są pewne wielkości, jak ryzykowne są pewne rozwiązania, jak wyglądają zależności pomiędzy zjawiskami. Aby przekaz był zgodny z zamierzeniami, musimy być świadomi sposobu, w jaki nasz mózg postrzega liczby i zależności, w jaki sposób myśli o danych i w jakich sytuacjach postrzeganie liczb lub zależności może być zniekształcone. – mówi prof. Przemysław Biecek.
Publikując jego esej „Percepcja danych” pokażemy, jakie trudności są związane z percepcją dużych liczb, rzadkich zdarzeń, przypadkowości oraz zależności. Wiedząc o tych trudnościach, możemy lepiej zaprojektować wizualizację danych, aby ułatwić odbiorcy poprawne zrozumienie informacji. Pierwsza część eseju już jest tutaj „Za duża, żeby zrozumieć” , druga tutaj „Dziękuję za odpowiedź, ale nie o to pytałem”, dzisiaj publikujemy „Nie wszystko ma swoją przyczynę”,
ostatnia będzie mieć tytuł
„Zaskakująca przypadkowość”.
Iwona D. Bartczak
_______________________________________________________________________
Wiele problemów w odczytywaniu informacji pojawia się, gdy zbyt usilnie staramy się znaleźć zależności pomiędzy zdarzeniami.
Czy jedzenie pomidorów pozwala na uniknięcie chorób?
Czy zapisywanie dziecka na dodatkowe zajęcia przyczyni się do lepszych wyników w nauce?
Czy w małych klasach można się więcej nauczyć?
Czy lepiej karmić dzieci piersią?
Wewnętrzna potrzeba spójności i potrzeba posiadania kontroli nad otoczeniem prowadzi do “odkrywania” przypadkowych relacji, które mają tendencje do obrastania w mity. Co więcej, gdy czytamy, że badacze falsyfikują jakąś hipotezę, przykładowo, że szpinak wcale nie zawiera nadzwyczajnie dużo żelaza, ale nie przykładamy do tego komunikatu dużej wagi, może się okazać, że zapomnimy o tym, że hipoteza była falsyfikowana, ale będziemy pamiętać, że o tej hipotezie czytaliśmy. Przez co, w drodze racjonalizacji, możemy zacząć traktować ją jako prawdziwą. W myśl zasady, że komunikaty, które wydają nam się znajome, uznajemy za prawdziwe.
We wcześniejszych odcinkach okazaliśmy na przykładach, jak trudno jest zrozumieć duże liczby lub małe prawdopodobieństwa. Okazuje się, że jeszcze trudniej jest zrozumieć przypadkowość. Jesteśmy skłonni myśleć, że trudność w analizie danych polega na skojarzeniu oraz znalezieniu zależności pomiędzy dwoma cechami. Genialny analityk widzi morze liczb i nagle dostrzega w nich ukryty wzorzec niewidoczny dla innych.
A jeżeli problem leży zupełnie gdzie indziej? Jeżeli widzimy zbyt wiele fałszywych zależności, doszukując się znaczenia w zupełnie przypadkowych związkach? Co, jeżeli geniusz analityka polega na określeniu, które z zależności nie są przypadkowe? Nasz mózg dopisuje znaczenia do zupełnie przypadkowych elementów posiadanego komunikatu i wiele wiedzy potrzeba, by odsiać te przypadkowe zależności.
Trudność zaakceptowania “zwykłego przypadku” pojawia się w bardzo wielu sytuacjach. Często jej nie dostrzegamy, ponieważ żyjemy w przekonaniu, że akurat to zjawisko nie jest przypadkowe, uznajemy więc wyjaśnienia jako uzasadnione. Ilustracje tego problemu zaczniemy od historii bombardowania Londynu. Poniższa grafika przedstawia miejsca zbombardowane przez niemiecką Luftwaffe w latach 1940/1941. Naloty te miały na celu zdemoralizowanie mieszkańców Londynu. Celem nie były strategiczne obiekty wojskowe, ale samo miasto. Oczywiście londyńczycy nie wiedzieli, a przynajmniej nie wszyscy wiedzieli, jaki jest cel przeprowadzania nalotów dywanowych i bombardowania przypadkowych budynków cywilnych.
Rysunek 4: Mapa miejsc, na które zrzucono bomby podczas nalotów Londynu. Źródło: http://bombsight.org/
Mieszkając w Londynie i widząc, gdzie spadały bomby częściej, a gdzie rzadziej, Londyńczycy doszukiwali się wzorców, szukając celów niemieckich ataków. W budynkach/ulicach/ osiedlach, na które nie spadły bomby doszukiwano się szpiegów lub kolaborantów, którzy są przez agresora oszczędzani. W miejscach, gdzie spadło szczególnie wiele bomb, doszukiwano się wyjątkowo istotnych strategicznie celów. Jest to racjonalne i bardzo ludzkie zachowanie, by widząc, że na jakiś budynek bomba spadła dwa razy, podczas gdy na sąsiednią ulicę nie spadła żadna bomba doszukiwać się przyczyn, racjonalizować sobie świat, aby wyciągnąć wnioski na przyszłość i uratować swoje życie.
Dziś jednak, mając zebrane informacje o miejscach, gdzie zrzucono bomby, można przeprowadzić analizę statystyczną, by określić, czy częstość, z jaką bomby spadały w różne miejsca, jest istotnie różna od częstości, która pojawiłaby się, gdyby bomby spadały w losowe miejsca.
Okazuje się, że analiza statystyczna miejsc bombardowania z użyciem testów losowości χ2 lub z użyciem dwuwymiarowych pól losowych pokazuje, że rozkład miejsc, na które zrzucono bomby, jest zgodny z rozkładem zupełnie przypadkowym. Większe zagęszczenie bomb w pewnych miejscach i mniejsze zagęszczenie w innych miejscach jest typowe dla zdarzeń losowych. Jeżeli całą mapę podzielimy na regularną kratę i zliczymy, ile jest kwadratów, na które nie spadła żadna bomba, ile jest takich, na które spadła jedna bomba, dwie bomby itp, okaże się, że liczba tych kwadratów jest zgodna z oczekiwaną przy zupełnie losowym bombardowaniu. Patrząc na mapę, nie sposób jednak oprzeć się wrażeniu, że widzimy “wyraźne” wzorce.
Skąd się bierze to doszukiwanie zależności przyczynowo-skutkowych?
W pewnym sensie sami ćwiczymy mózg w nieustannym generowaniu sugestywnych zależności. Gdy przed szkołą podstawową pięciolatki są oceniane pod kątem zdatności do rozpoczęcia nauki w szkole podstawowej, sprawdza się między innymi, czy dziecko potrafi ułożyć przyczynowo-skutkową historię z kilku obrazków. Oczekuje się od dziecka, że będzie dostrzegało przyczynowo-skutkowe zależności wcześniej niż nauczy się liczyć do dziesięciu, sylabizować czy czytać.
Skoro umiejętność szukania skojarzeń jest tak wysoko ceniona, nic więc dziwnego, że ćwiczymy się w umiejętności dostrzegania zależności, mniejszą wagę przykładając do ryzyka, że dostrzeżemy nieistniejącą zależność. Problem ulegania złudzeniu istotnych zależności tam, gdzie tych zależności nie ma, dotyka nie tylko przeciętnego Kowalskiego, ale również naukowców stosujących statystykę na co dzień. Jest to jeden (z pewnością nie jedyny) z powodów, dla których zasypywani jesteśmy śmieciowymi pseudo odkryciami o cudownych właściwościach różnych diet, substancji, strategii.
(…)
W ostatnich latach można znaleźć coraz więcej książek i artykułów zbierających najciekawsze przykłady nieistniejących zależności odkrywanych i potwierdzanych przez kolejnych badaczy, albo przykłady racjonalizacji zdarzeń, które jednak mają wszelkie znamiona zdarzeń zupełnie przypadkowych. W książce [Duncan Watts. Everything Is Obvious: *Once You Know the Answer Crown Business, 2011] autor pokazuje na przykładach jak łatwo zracjonalizować prawdę ogólną, która jest wspierana tylko przez “społeczny dowód”: jest prawdą, bo wszyscy w nią wierzą.
Jeden z ciekawszych przykładów z tej książki dotyczy analizy popularności obrazu Leonarda da Vinci Mona Lisa. Autor przyznaje, że nie jest krytykiem sztuki, ale zderza popularne opinie uzasadniające, dlaczego akurat ten obraz jest uznawany za najcenniejszy obraz na świecie. Oczywiście, Mona Lisa nie jest na sprzedaż, więc określenie “najcenniejszy” dotyczy kwoty, na którą ten obraz jest ubezpieczony. Okazuje się, że dyskusja cech genialnych tego obrazu sprowadza się do określenia, że jest on tak wartościowy, ponieważ ma cechy X, Y i Z, ale mówimy, że te cechy się liczą, ponieważ ma je właśnie ten obraz. Innymi słowy mówimy, że Mona Lisa jest najcenniejszym obrazem, ponieważ jest podobna do Mony Lisy, która jest najcenniejszym obrazem.
Rysunek 5: Mona Lisa autorstwa Leonarda da Vinci.
Można sobie jednak wyobrazić, że historia potoczyła się inaczej i to inny obraz został uznany za najcenniejszy. Być może to, który z obrazów jest najcenniejszy jest cechą całkowicie przypadkową, niezwiązaną z konkretnymi cechami samego obrazu, a nawet jeżeli związaną, to w sposób, którego nie da się uzasadnić. Dla wielu osób taki styl myślenia jest jednak nie do przyjęcia, jak to bowiem możliwe, że Mona Lisa nie ma cech obrazu wybitnego, skoro jest wybitnym obrazem? Jeszcze bardziej nie do pomyślenia jest stwierdzenie, że być może nie ma czegoś takiego jak cechy obrazu wybitnego.
Spójrzmy na tego typu błąd percepcji z naszego rodzimego podwórka – sondaże polityczne.
Jednym z najciekawszych błędów ilustrujących potrzebę przyczynowo-skutkowych relacji jest interpretacja wyników z sondaży poparcia politycznego. Główne ośrodki badania opinii publicznej przeprowadzają sondaże poparcia partii politycznych co miesiąc lub częściej. Zazwyczaj wielkość próby oscyluje w okolicach 1000 osób, z czego około połowa nie wie, kogo poprze, lub nie popiera nikogo. Pozostaje więc około 500 osób na bazie których szacowane jest poparcie. Wyniki tego poparcia są prezentowane w mediach zazwyczaj bez żadnej refleksji dotyczącej błędu pomiaru. Są za to porównywane z wynikami poprzedniego sondażu, co dodatkowo zwiększa błąd oszacowania, jeżeli chodzi o ocenę zmiany poparcia.
Przyjrzyjmy się sondażowi Homo Homini z 20 listopada 2012 roku. Na bazie tego sondażu podano, że poparcie dla Platformy Obywatelskiej wynosi 36% i jest to wzrost o 5 punktów procentowych w stosunku do poprzedniego sondażu. Te pięć punktów to dużo, więc w mediach eksperci wypowiadali się, co mogło spowodować tak duży wzrost.
W kolejnym sondażu z 5 grudnia 2012 roku poparcie spadło do poziomu 29%. Mamy więc spadek o 7 punktów procentowych. W mediach eksperci wskazują, co rząd robił źle, że zaowocowało to takim spadkiem poparcia.
Dwa tygodnie później, 19 grudnia, poparcie w sondażu wynosiło 33%, a więc wzrost o 4 punkty. I eksperci wyjaśniają, skąd ten duży wzrost poparcia, mówią, że to koniec roku tak wpływa na podsumowania wyborców.
Mają na wyjaśnienie mało czasu, bo już 8 stycznia 2013, w kolejnym sondażu poparcie Platformy wynosi znów 29%, a więc spadek o 4 punkty. Czy to przypadek, że w kolejnych sondażach na zmianę poparcie bardzo rosło i bardzo spadało? Przy wahaniu poparcia: 31%, 36%, 29%, 33%, 29%, bardziej prawdopodobne jest stwierdzenie, że zmiany te związane są z błędem pomiaru, a nie znacznymi wahaniami poparcia obserwowanymi co dwa tygodnie.
Zamiast analizować wyniki pięciu kolejnych sondaży, przyjrzyjmy się wynikom z 53 sondaży przeprowadzonych przez Homo Homini w okresie 2 lat – 2011-2013. Zestawmy, jak wyglądały zmiany poparcia dla Platformy Obywatelskiej w każdej parze kolejnych dwóch sondaży. Ponieważ wszystkich zebranych sondaży mamy 53, więc możemy dla 52 par kolejnych sondaży policzyć, jak wyglądała zmiana pomiędzy kolejnymi dwoma sondażami. A dla 51 par takich par możemy porównać dwie kolejne zmiany.
Rysunek 6: Tabela przedstawiająca jak często po wzroście/spadku poparcia dla PO badanego przez ośrodek Homo Homini następuje wzrost/spadek poparcia w kolejnym badaniu. Źródło: opracowanie własne
Powyższa tabela pokazuje, że najczęściej (oczywiście nie zawsze) po wzroście poparcia przychodzi spadek. Z pewnością eksperci znajdą jakieś wytłumaczenie zmian poparcia, ale czy nie jest bardziej prawdopodobne, że wzrosty i spadki poparcia są głównie skutkiem niewielkiej wielkości próby i czystej przypadkowości?
Nie twierdzę tutaj, że poparcie dla partii się nie zmienia. Z pewnością się zmienia, ale te zmiany są powolne i możliwe do wychwycenia w dłuższym horyzoncie czasu lub przy większej próbie. Dla małych prób znaczny procent wzrostów i spadków poparcia wynika z dokładności pomiaru. Problem ten oczywiście nie dotyczy komentarzy wyników z sondaży Homo Homini, ale w mniejszym czy większym stopniu każdej innej agencji sondażowej.
Oczywiście przyznanie się do tego słabo wyglądałoby w gazetach i telewizji. Co miałby powiedzieć ekspert zapytany, dlaczego poparcie wzrosło o 5 punktów procentowych? Stwierdzenie, że to może być zwykły przypadek, może i jest prawdziwe, ale nasz umysł pożąda przyczyn, racjonalizuje losowe fluktuacje. Paradoksalnie taka racjonalizacja daje poczucie zrozumienia, skąd te zmiany się biorą. Paradoksalnie, bowiem tak naprawdę jest dowodem niezrozumienia losowości i niepewności pomiaru stojącej za sondażami opinii publicznej.
(….)
Powrót do średniej
Gdy jeden narciarz skoczy wyjątkowo dobrze, znacznie powyżej oczekiwań, to najczęściej drugi skok będzie gorszy niż pierwszy, co często komentatorzy nazywają “zepsuciem” skoku. Podobnie, gdy pierwszy skok będzie poniżej oczekiwań, to drugi skok będzie lepszy niż pierwszy, a skoczek się “poprawił”. Zjawisko to jest czasem nazywane “powrotem do średniej/przeciętnej”, ponieważ dla wielu mechanizmów losowych najczęściej obserwuje się wartości bliskie średniej typowej dla tego mechanizmu. Nawet jeżeli przypadkowo zaobserwujemy nadzwyczaj wysoką lub niską wartość, nie ma najczęściej powodu, by kolejna obserwacja była również tak wyjątkowa. Zazwyczaj po wyjątkowo dziwnej wartości kolejna jest znów bliska średniej.
Termin “powrotu do średniej” został spopularyzowany przez Francisa Galtona (1822-1911) [Francis Galton. Regression towards mediocrity in hereditary stature. The Journal of the Anthropological Institute of Great Britain and Ireland, page 246–263, 1886], który użył go opisując wyniki badań pokazujących, że synowie bardzo wysokich ojców są niżsi niż ojcowie, ich wzrost jest bliższy średniej. Ten powrót do średniej Galton określił słowem regression, terminem, który później zaczął być używany do nazywania metod badania zależności pomiędzy zmiennymi.
W książce [Daniel Kahneman. Thinking, Fast and Slow Farrar, Straus and Giroux, 2011] przedstawiono jeszcze inny przykład, gdy zjawisko “powrotu do średniej” jest racjonalizowane i dopisywana jest do niego przyczynowo-skutkowa historia. Jako przykład podano wpływ napoi energetycznych na stan dzieci w głębokiej depresji. Przedstawiono hipotetyczne badanie, w którym dzieciom o obniżonym nastroju podaje się napój energetyczny i następnie obserwuje się efekt poprawy. Okazuje się, że dzieciom nastrój się poprawia. Czyż to nie jest fantastyczne odkrycie? Nie, ponieważ gdyby dzieciom w obniżonym nastroju nic nie podawać to średnio ich nastrój również by się poprawił, ponieważ nastrój, jak i wiele innych cech, krąży wokół pewnej średniej i czasem jest obniżony, a czasem podwyższony.
Dlaczego obsesyjnie szukamy wyjaśnień? Czy dają nam poczucie kontroli? W książce [Nassim Nicholas Taleb. The Black Swan: The Impact of the Highly Improbable Random House, 2007] podano ciekawy przykład zachowania się rynku w dniu, w którym pojmano Saddama Husseina. Najpierw rynek zanotował wzrosty, a po pół godzinie spadki. W obu przypadkach jako przyczynę podawano schwytanie Husseina. Najważniejsza wiadomość dnia musiała (zdaniem ekspertów) mieć wpływ na zachowanie się rynku. Ale że jednocześnie była przyczyną wzrostów i spadków?
Cdn.
Przemysław Biecek, profesor Politechniki Warszawskiej i Uniwersytetu Warszawskiego, lider MI2DataLab http://mi2.mini.pw.edu.pl/, od kilkunastu lat pracuje nad metodami statystycznej analizy danych. Więcej o nim http://biecek.pl/Eseje/indexAutor.html
Cały esej znajduje się tutaj http://biecek.pl/Eseje/indexDane.html