Denník N

Čo dokáže dokonalý prieskum? 3 rady ako prieskumy čítať.

Blížia sa voľby a tak nás niekoľkokrát týždenne ohurujú svojimi číslami prieskumy verejnej mienky, ktoré médiá s radosťou preberajú. Čo však naozaj dokáže povedať prieskum, aj keby bol dokonalý? Prekvapivo málo.

Tento článok je o možnostiach prieskumov, matematike a štatistike. Nekomentuje prieskumy, ktoré sú zverejňované konkrétnymi agentúrami ale skúma, kde vôbec sú možnosti prieskumov ako takých. Ak radšej chcete trocha prieskumovej srandy, pozrite si ako sa môže aj jeden respondent dostať do hlavných správ alebo ako sa nemá kresliť graf a ako sa ten istý graf nemá opravovaťAk chcete niečo o konkrétnych agentúrach, prečítajte si tu, tu alebo rant tu. Teraz už nasleduje matematika.

Dokonalý prieskum

Za dokonalý prieskum budeme považovať taký, v ktorom každý opýtaný povie pravdu o tom, čo vo voľbách urobí a opýtaných vyberáme z populácie úplne reprezentatívne, tj. pravdepodobnostné rozdelenie ľudí vo vzorke je zhodné so skutočným. Vykonať taký prieskum v praxi by bolo extrémne drahé a náročné, takmer až nemožné.

Výsledky, ktoré v tomto článku popisujem sú to najlepšie, čo je z prieskumov teoreticky možné získať za dokonalých podmienok.

Všetky skutočné prieskumy verejnej mienky sa snažia nejakým spôsobom k takýmto výsledkom priblížiť a teda ich výsledky sú z princípu kvalitatívne ešte horšie – či už preto, že vzorku nevyberajú dokonale, alebo preto, že odpovede respondentov sa nezhodujú s ich skutočným rozhodnutím.

Ako teda takýto prieskum urobiť ?

Stačí nájsť udalosť, o ktorej všetky potrebné informácie už poznáme na celej vzorke a prieskum realizovať Monte Carlo simuláciou. Tiež sa to dá priamo vypočítať aj z multinomického rozdelenia, ale Monte Carlo simulácie sú väčšia zábava. Aby sme nemali prieskum len jeden, ale vedeli analyzovať ako sa takéto prieskumy správajú ako celky, urobíme si ich veľa, v tomto prípade 30000. Udalosťou, ktorú budeme skúmať sú parlamentné voľby 2012, ktorých detailné výsledky zverejnil ŠÚSR. Pre podobnosť s medializovanými prieskumami budeme každý prieskum simulovať na vzorke 1100 respondentov. Čo by teda dokázal dokonalý prieskum pred  voľbami v 2012 ?

Dokonalý prieskum asi dáva skvelé výsledky. Iba žeby nie.

Neistotu v prieskume môžeme popísať napríklad pomocou intervalov spoľahlivosti. Poďme sa teda pozrieť, ako v našom dokonalom prieskume môžeme namerať stranu, ktorá v skutočnosti má podporu 5% voličov:

90% a 95% Intervaly spoľahlivosti pre preferencie 5% v závislosti od množstva rozhodnutých respondentov, vzorka 1 100 respondentov.
90% a 95% Intervaly spoľahlivosti pre preferencie 5% v závislosti od množstva rozhodnutých respondentov, vzorka 1 100 respondentov.

Na vodorovnej osi grafu sa nachádza percento rozhodnutých respondentov. 10% teda zodpovedá 110 rozhodnutým respondentom, 100% znamená, že všetkých 1100 respondentov je rozhodnutých.

Vo voľbách 2012 bolo rozhodnutých voličov 58,13% a teda 95% interval spoľahlivosti pre päť percentnú stranu by bol 3,31% až 6,69%. Ak by sme chceli byť menej prísni a stačil by nám 90% interval spoľahlivosti, stále je relatívne široký – 3,58% až 6,42%. Interval spoľahlivosti široký 1 percentuálny bod získame až pri 44-percentnom intervale spoľahlivosti.

Zjednodušene povedané, pri 5% strane sa do výsledku 4,5% – 5,5% netrafí ani polovica prieskumov, aj keby boli robené na dokonalej vzorke a všetci respondenti by vedeli a hovorili pravdu.

Veľké zmeny pri veľkých stranách

Absolútna veľkosť intervalov narastá s podporou strany, preto sa zbytočne čudujeme, že výsledky väčších strán viac fluktuujú. Pre upresnenie – platí to do podpory 50%, ďalej sa opäť rozsah intervalu zmenšuje. Vyplýva to z vlastností binomického rozdelenia a z faktu, že štvorec má najväčší obsah zo všetkých obdĺžnikov s rovnakým obvodom. 95% interval spoľahlivosti strany so 40% podporou má napríklad šírku 8 percentuálnych bodov, pričom interval 5% strany len 3,6 percentuálneho bodu. Relatívne je interval menší pri strane s vyššou podporou.

Vo výsledkoch prieskumov však budú veľké strany vždy fluktuovať omnoho viac ako malé.

95% intervaly spoľahlivosti v závislosti od preferencií, vzorka 1100 respondentov, % rozhodnutých ako vo voľbách 2012.
95% intervaly spoľahlivosti v závislosti od preferencií, vzorka 1100 respondentov, % rozhodnutých ako vo voľbách 2012.

Rastieme lebo medveď

Veľmi obľúbenou disciplínou je veštenie z trendov. Našiel som si teda v našich dokonalých prieskumoch stranu, ktorá v prieskume krásne rastie 6 mesiacov, takmer dokonale o 5% každý mesiac. V januári dostala 4,5%, v júni až 5,7%.

Namerané preferencie a 95% intervaly spoľahlivosti, vzorka 1 100 respondentov, % rozhodnutých ako vo voľbách 2012.
Namerané preferencie a 95% intervaly spoľahlivosti, vzorka 1 100 respondentov, % rozhodnutých ako vo voľbách 2012.

Určite to bolo skvelou kampaňou, novým účesom predsedu, vyjadreniami k globálnemu otepľovaniu a svetovému mieru. Len škoda, že náhodný generátor nič z toho nepočul, ani nevidel a tento nárast môže byť pokojne úplne náhodný.

Vyjadrenia o zdôvodňovaní trendov sú postavené na vode, keďže metodicky žiadna agentúra ani len nezbiera dáta, z ktorých by bolo možné objektívne vyvodiť tieto závery. Mali by sme ich preto brať do úvahy asi s takou váhou, ako najnovšie veštenie z kariet pani JV.

Tiež by bolo vždy vhodné pozrieť sa na intervaly spoľahlivosti a určiť, s akou pravdepodobnosťou naozaj ide o trend a s akou len o náhodný výkyv.

Skladáme vlády

Špeciálne vtipnou časťou článkov o prieskumoch sú dumky o možných vládach.

Vtipné sú preto, že aj ak by prieskumy boli úplne dokonalé, napríklad vo voľbách 2012 by sa im podarilo vôbec odhadnúť správny počet strán v parlamente len v približne polovici prípadov.

Počet prieskumov podľa počtu strán, ktoré by sa v dokonalých prieskumoch dostali do parlamentu vo voľbách 2012. Vzorka 30 000 prieskumov.
Počet prieskumov podľa počtu strán, ktoré by sa v dokonalých prieskumoch dostali do parlamentu vo voľbách 2012. Vzorka 30 000 prieskumov.

Od počtu strán, ktoré prekročia 5% hranicu veľmi zásadne závisí počet mandátov jednotlivých strán. Miesto ďalšieho textu pre vás vyberám dva veľmi zaujímavé dokonalé prieskumy. Nie, ani zďaleka nie sú tie najdivokejšie z tých 30000 a všetky výsledky strán sa v oboch prípadoch bez problémov zmestili nielen do 95%, ale aj do 90% intervalov spoľahlivosti:

Prieskum 1 - Emigrujeme (SDKÚ a SaS tesne pod 5% - o dve strany v parlamente menej)
Prieskum 1 – Emigrujeme (SDKÚ a SaS tesne pod 5% – o dve strany v parlamente menej)
Prieskum 2 - Zlepenec 2.0 (SNS a SMK prekročili 5% - o dve strany v parlamente viac)
Prieskum 2 – Zlepenec 2.0 (SNS a SMK prekročili 5% – o dve strany v parlamente viac)

Sľúbené 3 rady na záver 

  1. Aj keby prieskumné agentúry svojich respondentov vyberali dokonale a ich respondenti by k nim boli 100% úprimní a ešte by aj sami vedeli, čo vlastne urobia, boli by jednotlivé výsledky prieskumov so vzorkou 1100 respondentov extrémne ťažko interpretovateľné, pretože ich variancia je relatívne veľmi veľká.
  2. Hľadať v nich vysvetlenia trendov nemá s vedou nič spoločné, pretože táto informácia v dátach jednoducho nie je obsiahnutá.
  3. Skladaniu vlád z výsledkov prieskumov sa treba zasmiať.

Zdroje

Teraz najčítanejšie