Ważne

Wykres pomagający interpretować sondaże, czyli parę słów na temat niepewności w analizie danych

Intuicyjnie rozumiemy, że wysokość słupków danej partii w danym badaniu nie jest kompletnym wskaźnikiem jej rzeczywistego poparcia. Nie jest, bo spośród ok. 20 milionów głosujących ankieterzy pytają zaledwie ok. 1000 osób, czyli 1/20,000 wszystkich, wybierając ich losowo. W tej losowości zaszyta jest komplikacja: nie jest wykluczone, że w wyniku zwykłego przypadku ankieterzy dzwonili trochę częściej do konserwatywnych wyborców, więc wśród ankietowanych poparcie dla jakiejś partii jest wyższe, niż w całej populacji wyborców. Mogło być też na odwrót: dzwonili do konserwatywnych rzadziej. Tego nie wiemy, ale bazując na teorii prawdopodobieństwa i wynikach sondażu umiemy wyliczyć realne poparcie wszystkich 20 milionów, a konkretnie jego najbardziej prawdopodobny zakres.

300 głosów spośród 1000 ankietowanych to 30% poparcia w sondażu, ale to nie oznacza, że spośród 20,000,000 milionów głosów ta partia zdobędzie dokładnie 6,000,000 głosów. Niemal tak samo prawdopodobny jest wynik 6,000,001 czyli 30,000005% poparcia. Intuicyjnie to rozumiemy, a teoria pomoże wyznaczyć granicę naszej niepewności: zakresu poparcia, poza który w realnych wyborach dana partia nie wyjdzie, skoro w sondażu zdobyła 30%. Umiemy więc wyliczyć niepewność sondażu (i w ten sposób te sondaże powinny być przedstawiane: nie jako jedna liczba, lecz najbardziej prawdopodobny zakres).

Ponieważ ta niepewność zależy od liczby respondentów sondażu (im więcej, tym niepewność mniejsza) i poparcia dla danej partii (im wyższe, do pewnego momentu, tym niepewność mniejsza) w ramach niedzielnej rozrywki policzyłem oczekiwany błąd dla różnych kombinacji tych dwóch parametrów (a konkretniej: dla 90,000 kombinacji wielkości sondażu i wielkości poparcia policzyłem przedział ufności gęstości prawdopodobieństwa, połowa tej wartości to oczekiwany dopuszczony „błąd” sondażu, przeliczyłem go na punkty procentowe).

Korzystając z wykresu można wyliczyć zakres poparcia dla danej partii i sprawdzić, czy np. różnice między partiami lub między sondażami pozostają „w granicach błędu” (więc nie ma co się nimi przejmować), czy też wychodzą poza nie (raczej ilustrują faktyczne zmiany).


Wpis ukazał się pierwotnie na facebooku tutaj. Posty z fb nie są recenzowane, stanowią swego rodzaju archiwum informacji z ulotnego środowiska mediów społecznościowych.


Dr hab. Michał Żmihorski. prof. IBS PAN, dyrektor Instytutu Biologii Ssaków Polskiej Akademii Nauk.