Mit jedynej prawdziwej historii – rzecz o percepcji danych. Cz. IV
Dobra grafika statystyczna powinna pokazywać informację zawartą w danych liczbowych. Powinna to robić w taki sposób, by łatwo było odczytać i zrozumieć związek pomiędzy informacją a danymi. Obrazować, jak duże są pewne wielkości, jak ryzykowne są pewne rozwiązania, jak wyglądają zależności pomiędzy zjawiskami. Aby przekaz był zgodny z zamierzeniami, musimy być świadomi sposobu, w jaki nasz mózg postrzega liczby i zależności, w jaki sposób myśli o danych i w jakich sytuacjach postrzeganie liczb lub zależności może być zniekształcone. – mówi prof. Przemysław Biecek.
Publikując jego esej „Percepcja danych” pokażemy, jakie trudności są związane z percepcją dużych liczb, rzadkich zdarzeń, przypadkowości oraz zależności. Wiedząc o tych trudnościach, możemy lepiej zaprojektować wizualizację danych, aby ułatwić odbiorcy poprawne zrozumienie informacji. Pierwsza część eseju już jest tutaj „Za duża, żeby zrozumieć” , druga tutaj „Dziękuję za odpowiedź, ale nie o to pytałem”, trzecia – „Nie wszystko ma swoją przyczynę”,
a dzisiaj „Mit jedynej prawdziwej historii”.
Iwona D. Bartczak
______________________________________________________________________
Problemów związanych z percepcją danych jest wiele, ale najtrudniejszy jest problem z wiarą w jedną jedyną prawdziwą historię. Z jednej strony zdajemy sobie sprawę, że żyjemy w złożonym świecie, w którym różne czynniki wchodzą w interakcje, a skutki tych interakcji bywają nieprzewidywalne. Z drugiej strony, ta złożoność nam przeszkadza i gdzieś tam głęboko wierzymy, że uda się złożone zależności sprowadzić do prostego wytłumaczenia. Czasem udaje się to zrobić, ale często popełniamy błąd zbyt wielkich uproszczeń.
Jest to spory problem, gdy opowiadamy jakąś historię. Gdy jej celem jest perswazja, usunięcie wszelkich wątpliwości jest dobre dla wiarygodności historii. Tak często postępują dziennikarze lub pisarze, którzy prezentując historię, chcą nam ją pokazać z określonej perspektywy tak, by cała historia prowadziła do określonych konkluzji. Jeżeli w historii są niespójności, to się je ukrywa, mocniej lub słabiej akcentując odpowiednie elementy. Ale jeżeli chcemy zrozumieć pewne zjawisko, albo pomóc w jego zrozumieniu odbiorcy, to często dobrze jest też przedstawić alternatywy.
Jeden z najciekawszych przykładów ilustrujących niebezpieczeństwa jednej historii przedstawiono w książce [Ian Ayres. Super Crunchers: Why Thinking-By-Numbers is the New Way To Be Smart Bantam, 2008]. Problem dotyczył lekarzy, którzy diagnozując, starali się znaleźć chorobę najlepiej pasującą do objawów. Gdy objawy są niestandardowe, taka diagnoza jest bardzo złożoną łamigłówką. Okazuje się jednak, że wybór najbardziej prawdopodobnej choroby wcale nie jest najlepszą strategią dla diagnosty. Co bowiem, jeżeli druga mniej prawdopodobna opcja wymaga zdecydowanie bardziej radykalnych środków?
Okazuje się, że w chwili, gdy lekarz rozwiązuje te trudne puzzle i znajduje prawdopodobną przyczynę choroby, popada w przesadne zaufanie do swojej diagnozy. I nawet jeżeli wybrał najbardziej prawdopodobną opcję, to jednak zawsze jest szansa, że ta opcja nie jest właściwa. A gdy w grę wchodzi zdrowie lub życie pacjenta warto, by lekarz rozważył też inne opcje, może mniej prawdopodobne, ale wciąż możliwe i wykonał dodatkowe badania, by wykluczyć inne alternatywy.
Dr House w akcji
Rozważmy zmyślony przykład. Zestaw objawów, dla którego można określić, że na 90% odpowiada za niego grypa, a na 10% gruźlica. Co zrobiliby diagności z serialu Doktor House w takim przypadku? Zebrani wokół stołu, obrzucani docinkami przez szefa, podaliby te prawdopodobieństwa, uznali że dziewięć razy bardziej prawdopodobna jest grypa i rzucili się do aplikowania choremu jakiejś terapii. Jednak grypa to względnie niegroźna choroba (choć grożąca ciężkimi powikłaniami). Nawet jeżeli jest bardziej prawdopodobna, to taka diagnoza bez wykonania dodatkowych testów oznaczałaby, że z takimi objawami u jednego pacjenta na dziesięć błędnie by zdiagnozowano grypę zamiast gruźlicy. Podczas gdy gruźlica jest znacznie poważniejszą chorobą, która nieleczona może prowadzić do śmierci.
Widzimy, że warto, by lekarz zadał sobie pytanie, “jeżeli nie grypa to co?”. Takie pytanie może doprowadzić do dodatkowych badań, które potwierdzą lub wykluczą gruźlicę. W serialach prawdziwą chorobę zdiagnozuje genialny House na podstawie zapachu potu pacjenta, ale co się stanie w realnym świecie?
W medycynie ten problem jest rozwiązywany za pomocą specyficznych systemów rekomendacyjnych. Jednym z nich jest system Isabel, który po wpisaniu symptomów generuje listę nawet kilkudziesięciu możliwych przyczyn. System ten nie wskazuje jedynie najbardziej prawdopodobnej przyczyny, nawet nie sortuje przyczyn względem ich prawdopodobieństwa (wtedy pojawiałaby się pokusa brania pod uwagę tylko tych prawdopodobnych), ale pełni rolę szerokiej listy typu “czy rozważyłeś taką możliwość …” lub “czy wykonałeś badanie…”. Mając taką szeroką listę, łatwiej jest lekarzowi określić, jakie potencjalne hipotezy co do choroby należy zweryfikować. Pozwala też uwolnić się od zamknięcia na mniej prawdopodobne, ale wciąż możliwe przyczyny.
Druga historia ukryta w wynikach badań
Nie tylko w zawodzie lekarza ważne jest kwestionowanie własnych obserwacji i poszukiwanie alternatywnych wytłumaczeń. W zawodzie analityka taka dociekliwość jest wręcz nieoceniona. Przyjrzyjmy się ciekawemu przykładowi z naszego lokalnego podwórka, a dokładniej z raportu [Krystyna Szafraniec. Mlodzi 2011. Kancelaria Prezesa Rady Ministrow, 2011] Chodzi mianowicie o porównanie odpowiedzi 19-letniej młodzieży na pytanie Co jest w życiu ważne? Badania takie przeprowadzono w latach 1976 i 2008. Celem było określenie, jakie wartości są wspólne dla tych dwóch pokoleń, a jakie są różne.
Rysunek 1: Wykres przedstawia wyniki dwóch różnych badań, na bazie których oceniono częstość odpowiedzi na pytanie Co jest w życiu ważne przez 19-letnią młodzież. Jedno badanie było realizowane w roku 1976, a drugie 32 lata później w 2008 roku. Źródło: rysunek 2.1 z raportu Młodzi 2011
Wyniki z obu badań przedstawiono za pomocą wykresu słupkowego (rysunek 1). Jaki wniosek wysnuto na podstawie zestawienia tych badań? Przytoczę poniżej akapit ze strony 40 wspomnianego raportu.
Najprostsze porównywalne dane ukazują niezmiennie wysoką w hierarchii ważności pozycję rodziny – udane życie rodzinne jest podkreślane jako sprawa bardzo ważna zarówno przez dawne, jak i przez nowe młode pokolenie (przez nowe nawet bardziej). W tym słowie “kluczu” zawiera się szczęście osobiste i miłość, najwyżej dziś cenione przez najmłodsze kohorty młodzieży. Drugie podobieństwo dotyczy relatywnie niskiego wartościowania spokojnego życia. W innych kwestiach charakterystyki dawnej i nowej młodzieży wyraźnie się rozchodzą. Dzisiejsza młodzież dalece bardziej ceni sobie nie tylko dobre wykształcenie, interesującą pracę, duże pieniądze czy barwne życie – a więc wartości najczęściej jej przypisywane, lecz również przyjaźń, poczucie bycia potrzebnym i użytecznym, prestiż i szacunek u ludzi (cechy najbardziej kojarzone ze współczesną młodzieżą).
Oceniono więc, że takie wartości jak “udane życie rodzinne” i “spokojne życie” są podobnie oceniane przez oba pokolenia, podczas gdy pozostałe wartości oceniane są różnie. Taki wniosek uzasadniony jest porównaniem długości słupków, w przypadku “udanego życia rodzinnego” i “spokojnego życia” słupki obu kolorów mają podobną długość.
Czy to jednak jedyna możliwa interpretacja tych wyników? Czy jest w nich druga historia i czy ta druga historia nie jest nawet bardziej prawdopodobna niż pierwsza?
Rysunek 2: Dane z raportu Młodzi 2011 przedstawione za pomocą wykresu punktowego. Każda kropka odpowiada wartości, współrzędne kropki odpowiadają proporcji osób, które uznały daną wartość za istotną w życiu. Na osi OX przedstawione są odpowiedzi z badania z roku 1976, a na osi OY z badania z roku 2008. Takie zestawienie ułatwia porównanie nie bezwzględnych wartości, ale hierarchii ważności. Źródło: opracowanie własne
Dla mnie sygnałem, że być może w tej historii jest drugie dno, była obserwacja, że wszystkie słupki dla badania z roku 2008 są dłuższe niż te dla badania z 1976. Być może ankietowani mogli zaznaczyć więcej odpowiedzi, być może próg ważności był inaczej dobrany w tych dwóch badaniach, a być może młodzież w roku 2008 uważa, że więcej rzeczy jest ważnych w życiu. Bez względu na to, która z tych przyczyn jest prawdziwa, wydało mi się zasadne porównanie nie tylko proporcji osób oceniających daną wartość za ważną, ale porównanie hierarchii ważności dla obu pokoleń.
Co ciekawe, po zestawieniu rankingów wartości okazuje się, że wyłania się z nich zupełnie inna historia. Rankingi w obu pokoleniach są podobne. Trzy najważniejsze wartości to: “udane życie rodzinne”, “przyjaźń” i “interesująca praca”. Następne w rankingu są “bycie użytecznym” i “prestiż i szacunek”. Na końcu rankingu dla obu pokoleń są “barwne życie”, “dobre wykształcenie” i “duże pieniądze”. Największa zmiana pomiędzy tymi pokoleniami dotyczyła wartości “spokojne życie”, która kiedyś znajdowała się w środku stawki, a dla późniejszych 19-latków spadała na ostatnie miejsce.
Te same dane przedstawione na dwa różne sposoby ukazują dwie różne historie. W przypadku wartości “spokojne życie” te historie są skrajnie różne. Przywiązanie do jednej opowieści nie pozwala na dostrzeżenie drugiej, a jedynie widząc obie, możemy pełniej spojrzeć na podobieństwa i różnice pomiędzy pokoleniami. Osobiście bardziej przemawia do mnie historia z hierarchią ważności. Więcej na ten temat można przeczytać w artykule Młodzi 2011 na stronie http://bit.ly/1a7MDCG.
Inne interesujące oblicze problemu jednej historii związane jest ze stereotypowym myśleniem. Przedstawimy je na bazie zmodyfikowanego przykładu z książki Pułapki myślenia (czyli polskiego tłumaczenia książki [Daniel Kahneman. Pułapki myślenia. O my’sleniu szybkim i wolnym}. Media Rodzina, 2012]). Przykład ten w oryginale ilustruje trudność z szacowaniem prawdopodobieństwa zdarzeń, ale jest również dobrą ilustracją problemu jednej historii.
Na podstawie szczątkowych informacji
Wyobraźmy sobie energiczną i pracowitą 40-letnią kobietę o imieniu Dorota. Ma ona dwuletnią córeczkę o imieniu Emilka, która właśnie uczy się mówić i właśnie z dumą opanowała zdanie “mama da”. Emilka jest śliczną małą dziewczynką, bardzo radosną i bardzo dużą, oczywiście jak na swój wiek. Uwielbia zwiedzać każdy zakamarek mieszkania i jest ciekawa świata. Emilka, podobnie jak i Dorota, ma długie czarne włosy związane w kucyk.
Mając ten opis na uwadze, oceńmy, która z poniższych możliwości jest bardziej, a która mniej prawdopodobna?
-
[A] Dorota oddaje Emilkę do sierocińca.
-
[B] Dorota jest samotna, ma piątkę starszych dzieci, nie jest w stanie ich wszystkich utrzymać i oddaje córeczkę do sierocińca.
W jaki sposób, mając takie szczątkowe informacje, będziemy szacować, czy bardziej prawdopodobna jest odpowiedź A czy B? Oba zdarzenia są mało prawdopodobne, co więcej stoją w sprzeczności z naszym wyobrażeniem Doroty i Emilki, które sobie zbudowaliśmy po przeczytaniu powyższego opisu.
W większości przypadków takie szacowanie odbywa się na zasadzie określania, która z odpowiedzi najbardziej pasuje nam do przedstawionego wizerunku Doroty. A ponieważ opis przedstawiał Dorotę jako sympatyczną osobę oceniając prawdopodobieństwo poszukamy raczej odpowiedzi spójnej, uzasadniającej decyzję o oddaniu Emilki do sierocińca. Z tej perspektywy to opis B wydaje się bardziej wiarygodny. W samej rzeczy, w podobnych badaniach dotyczących hipotetycznej Lindy i jej hipotetycznego miejsca pracy, David Kahneman z zaskoczeniem odkrył, że pytani częściej odpowiadali, że to odpowiedź B jest bardziej prawdopodobna niż odpowiedź A, ponieważ właśnie dodatkowe szczegóły uwiarygadniały mało prawdopodobny scenariusz.
Rzecz w tym, że tak w powyższym przykładzie, jak i w badaniach Kahnemana, aby spełniać warunek B trzeba też spełniać warunek A, więc odpowiedź A jest bardziej prawdopodobna niż odpowiedź B, ponieważ jest ogólniejsza.
Problem z poprawnym wyborem najbardziej prawdopodobnej odpowiedzi jest związany z wstępnym wyobrażeniem sobie Doroty. Choć opis tej osoby był szczątkowy, to został on uspójniony o stereotypowe wyobrażenie kobiety pasującej do opisanych cech. Przy decyzji, która z opcji jest bardziej prawdopodobna, na ocenę prawdopodobieństwa wpływa zbudowane w naszym umyśle wyobrażenie Doroty.
Cdn.
Przemysław Biecek, profesor Politechniki Warszawskiej i Uniwersytetu Warszawskiego, lider MI2DataLab http://mi2.mini.pw.edu.pl/, od kilkunastu lat pracuje nad metodami statystycznej analizy danych. Więcej o nim http://biecek.pl/Eseje/indexAutor.html
Cały esej znajduje się tutaj http://biecek.pl/Eseje/indexDane.html