Průzkumy předpovídaly vítězství Clintonové. Přesto nebyly špatně

Kamil GregorAmerické prezidentské volby 2016

Překvapivé vítězství Donalda Trumpa vzbudilo vlnu kritiky volebních průzkumů a jejich autorů. Ve skutečnosti ovšem průzkumy předvídaly vedení Clintonové, když právě vedla. Trump získal navrch až v posledních dnech a poté si zajistil vítězství rozdílem procenta. Na vině je také extrémně nepředvídatelný volební systém.

[fb_button]

Prakticky ihned po oznámení výsledků voleb se objevily hlasy kritizující volební průzkumy a jejich autory. Překvapivost zvolení Donalda Trumpa byla dávána do souvislosti s předchozím Brexitem, kde autoři průzkumů rovněž údajně nedokázali předpovědět překvapivý výsledek. Zejména se hovoří o snižující se návratnosti odpovědí při telefonickém dotazování, které zůstává oblíbenou metodou sběru dat především pro rychlé průzkumy (což je i případ prezidentských voleb). To je způsobeno snižujícím se počtem pevných linek a změně v přístupu lidí k telefonování, zejména u mladších ročníků. Roli také mohlo mít to, že se ne všichni respondenti byli ochotni přiznat k volbě Trumpa.

Je třeba si uvědomit, že Brexit a americké prezidentské volby představují z tohoto pohledu dvě velmi odlišné situace a nelze je dávat do přímé souvislosti. V případě Brexitu se jedna o výběr ze dvou možných odpovědí na jedinou otázku na celostátní úrovni a poslední průzkumy zveřejněné před hlasováním byly plně v rámci obvyklé statistické chyby.

V případě amerických prezidentských voleb ovšem předvídání výsledků pomocí průzkumů výrazně komplikuje volební systém, zejména tzv. sbor volitelů (Electoral College). Prezidentský kandidát získává (až na nepodstatné výjimky) hlasy všech volitelů ve státě, i kdyby zde zvítězil byť o jediný hlas. Ve státech, kde je v popularitě kandidátů výrazný rozdíl, není obtížné správně predikovat vítěze pomocí průzkumů, nicméně právě takové státy nejsou pro volbu obvykle klíčové.

Klíčových je pouze několik tzv. bitevních států, kde je v důsledku rozložení politických preferencí v populaci výsledek velmi těsný – v případě voleb v roce 2016 to byla zejména Florida, Ohio a Pensylvánie. Výsledky voleb zpravidla rozhoduje, který kandidát získá hlasy všech volitelů v těchto státech. Protože jsou to ovšem zároveň volební arény s vyrovnanými počty hlasů, je nesmírně obtížné výsledek správně odhadnout pomocí volebních průzkumů. 14 % voličů se rozhodlo poslední týden nebo ještě blíže dni voleb a většina z nich pro Trumpa.

1 % by zvrátilo volby

O tom svědčí např. skutečnost, že v roce 2016 by rovnoměrný přesun pouze 1 % voličů od Donalda Trumpa k Hillary Clintonové způsobil zvýšení rozdílu v celostátním počtu hlasů o 2 %, ale naprosto dramatický rozdíl v zisku hlasů voličů: ze skutečných 306:232 ve prospěch Donalda Trumpa na 307:231 ve prospěch Hillary Clintonové. A změřit pomocí volebních průzkumů výsledek takto vyrovnaných voleb s přesností na 1 % je nesmírně obtížné.

Nutno podotknout, že i kdyby byl americký prezident volen na základě celostátního počtu hlasů systémem „vítěz bere vše“, bylo by i v takovém případě nesmírně obtížné správně predikovat výsledek vzhledem k velmi těsnému rozdílu ve výsledném počtu hlasů pro oba kandidáty.

Díky systému sboru volitelů nejsou výsledky jednotlivých průzkumů ve Spojených státech příliš směrodatné. Průzkumy celostátního podílu hlasů pro kandidáty nutně nevypovídají o šancích na zvolení, protože záleží na rozložení podpory mezi státy (i letos se stalo, že zvítězil kandidát s nižším celostátním počtem hlasů, protože rozdělení jeho podpory bylo výhodnější). A průzkumy v jednotlivých státech, byť i klíčových, zase nepodávají informaci o podílech hlasů ve státech ostatních.

Velkou roli zde proto hraje agregace průzkumů na celostátní úrovni, většinou založená na systematickém sledování průzkumů ve všech státech současně. To bylo do roku 2008 doménou zejména mainstreamových médií a probíhalo víceméně bez matematické formalizace. V roce 2008 se na scéně objevuje statistik Nate Silver, který začal systematicky sbírat výsledky historických i aktuálních průzkumů a vytvořil pro účely odhadu šancí kandidátů na zvolení matematický model. Jedná se v podstatě o vážený průměr, který bere do úvahy stáří průzkumu a jeho kvalitu (např. metodu dotazování, velikost vzoru).

Nate Silver sice není původním autorem formalizovaného agregování průzkumů, nicméně právě on tuto metodu proslavil a i v roce 2016 byl jeho web FiveThirtyEight.com zdaleka nejsofistikovanější. Ostatní média, která nabízela agregaci průzkumů, obvykle ve formě pravděpodobnosti kandidátů na zvolení, víceméně pouze napodobovala jeho přístup. Zajímavé je, že Nate Silver byl rovněž zdaleka nejopatrnější z hlediska hodnocení šancí Hillary Clintonové na zvolení – těsně před volebním úterým jí jeho model dával 71 % pravděpodobnost zvolení, zatímco např. New York Times 85 %.

Pravděpodobnost zvolení

Nate Silver v  roce 2008, kdy jeho model debutoval, správně předpověděl výsledek voleb ve 49 států z 50 a stal se jedním ze 100 nejvlivnějších lidí světa podle časopisu Time. Je třeba mít na paměti, co máme na mysli slovem „předpověděl“. Jeho model váží podíly hlasů pro kandidáty z volebních průzkumů a z tohoto váženého průměru je pak vypočtena pravděpodobnost, že kandidát v daném státě zvítězí (a tím pádem získá hlasy volitelů). Je-li rozdíl mezi podíly hlasů malý, pravděpodobnost obou kandidátů se blíží 50 %. I v případě velkého rozdílu pravděpodobností ale model neříká, že favorit bude zvolen. Říká pouze, že favorit má větší šanci na vítězství. Jeho protivník může samozřejmě stále vyhrát, a pokud se to stane, nedošlo k ničemu jinému než k výskytu poněkud nepravděpodobného jevu.

V roce 2016 Nate Silver správně předpověděl výsledek ve 46 státech z 50 a zmýlil se ve státech Florida, Michigan, Severní Karolína, Pensylvánie a Wisconsin. Ve všech případech chybně predikoval vítězství Hillary Clintovoné. Z těchto států se jeho model nejméně odchyloval od skutečnosti na Floridě (zde Nate Silver predikoval 0.7 % rozdíl ve prospěch Hillary Clintonové, zatímco ve skutečnosti vyhrál Donald Trump s rozdílem 1.3 %) a nejvíce ve Wisconsinu (zde predikoval 5.3 % rozdíl ve prospěch Hillary Clintonové, zatímco Donald Trump vyhrál s rozdílem 0.9 %). Všechny tyto státy jsou z hlediska počtu volitelů nadprůměrně velké – nejméně připadá na Wisconsin (10 volitelů) a nejvíce na Floridu (29 volitelů). Ve všech případech je rozdíl predikce oproti skutečnosti v rámci 99 % intervalu spolehlivosti.

Nate Silverovi by stačilo správně predikovat výsledek na Floridě, aby jeho model přisoudil téměř identické šance na vítězství obou kandidátů, a ještě jeden další stát, aby se Donald Trump jevil jako pravděpodobnější vítěz.

Je tedy patrné, že odhad vysoké pravděpodobnosti vítězství Hillary Clintonové není nutně výsledkem nekvalitních průzkumů, ale spíše artefaktem nesmírně obtížné úlohy, jakou vytváří americký volební systém za situace velmi rovnoměrného rozdělení hlasů mezi kandidáty. Vliv nejrůznějších faktorů obecně snižujících přesnost průzkumů, jako je nízká návratnost dotazování, nerozhodnost voličů, jejich neochota jít k volbám nebo geografické rozdělení hlasů, se za této situace výrazně zvyšuje.

[fb_button]