Tényleg megint nagyot tévedtek az amerikai közvéleménykutatók, mint 2016-ban? Ha igen, mekkorát? És miért nem tudtak tanulni a négy évvel ezelőtti hibákból?
ez egy jó cikk, nem meglepő módon, hiszen tóka gábor elemzésén alapul, aki eléggé ért ehhez a témához. én az amerikai választásokra vonatkozóan specifikusan a következő dolgokat tenném hozzá:
1. igen, a közvélemény-kutatók elég nagyokat tévedtek, és igen, ezek most két egymást követő választáson a republikánusok kárára történtek. ennek ellenére jobb módszer nincs arra, hogy valamennyire előrelássuk a lehetséges forgatókönyveket - kutatások nélkül például azt se tudtuk volna, hogy mondjuk georgiára és arizonára kell figyelni idén. viszont érdemes lenne a közbeszédben kicsit kontextualizálni ezeket a kutatásokat: ha átlagosan 3 százalékponttal mellélőnek az amerikai választásokon, akkor az egy-két pontos eltéréseket és ilyen mozgásokat talán kevésbé kéne hangsúlyozni (igen, az átlagolás ezen segít, de azért nem annyit - lásd lejjebb). persze mindenki el akarja adni az információit, és egy szoros választáson az a hír, amit tudunk amúgyis (“szoros lesz a választás”) nem hír, de azért így sem teljesen érdektelenek vagy tanulság nélküliek, amiket kinyerünk a kutatásból, még akkor se, ha közben a bizonytalanságot is hangsúlyozzuk. igazából ezért kellenek a fivethirtyeight-féle előrejelző modellek is - ezek pont a bizonytalanságot próbálják több-kevesebb sikerrel kvantifikálni, hiszen ahogy nate silver gyakran leírja (valószínűleg hiába), ha teljesen jók lennének a mérések, akkor rá nem lenne szükség, mert mindenki csak leolvasná az átlagokat és összeadná az elektori szavazatokat maga.
2. ezt már párszor írtam, de megint: egy +/- 3,5 százalékos hibát hirdető felmérésnél a két jelölt közti különbség hibája valójában 7 százalék, és ez is csak egy 95%-os konfidenciaszint, ami azt jelenti, hogy még a legideálisabb körülmények között is (csak a statisztikai mintavételből eredő hibákkal kéne számolni) átlagosan húsz mérésből egy ezen az intervallumon kívül esik. erre lehet azt mondani, hogy ez a jelenkori szoros választások mellett használhatatlan pontatlanság, dehát ez van, jobb mint a semmi. mindenesetre ezért nem szeretem az egy-egy adat kiemelését mint extrém példát: igen, a wapo egyik wisconsini felmérése biden +17-et mutatott, de ez eltért vagy 8-9 ponttal az éppen aktuális átlagoktól - ami, hát megtörténhet, főleg ha annyit mérünk egy államot, mint wisconsint. persze a statisztikai mintavételből adódó hibáknak összességében nulla várható értékűnek kéne lenni, és nyilván erről nincs szó - de tekintve, hogy a válaszolási ráta az az alacsony egyjegyű százalékok nagyságrendjében van, ez is “csoda”, hogy ennyire pontos az előrejelzés. és az átlagolás, ami persze javít a mintavételből adódó torzításon, ezen nem fog segíteni: ha minden kutatás egy irányban csúszik el (mert valakik könnyebben elérhetők vagy lelkesebbek a válaszadásban - nem feltétlenül a bizonyítatlan “rejtőzködő” trump-szavazó elmélet miatt), akkor nyilván az átlag is elcsúszik.
3. önmagában az, hogy a különböző államok átlagaihoz képest a végeredmény a legtöbb államban egy irányba lengett ki (colorado a kivétel!), nem kéne, hogy rendkívüli legyen vagy nagy problémát jelezzen. az egyes államok eredményei (és a hibáik) korrelálnak, lehetett utolsó pillanatabeli hangulatváltozás, valami olyan esemény, ami miatt az egyik szavazótábor jobban mozgósít, mint a másik, vagy egyszerűen a tökéletlen mérési módszerek egyformán torzítottak (illetve nyilván ezek valamilyen kombinációja). ha ez kétszer egymás után megtörténik, akkor el kell gondolkozni, hogy mi történik. a mostani választásban két ilyen jelentős szavazói csoport volt, ahol a becslések pontatlanok lehettek:
- a latínók - erről sok szó esett, és még több fog esni, hogy magát a kategóriát elég nehéz definiálni, ennek megfelelően pedig a kérdezés módjától (minek tartja valaki magát) függően nagy szórást mutathatnak a “latínók körében” végzett kutatások. a jövő nyilván az, hogy a különböző rétegeket jobban elkülönítsük, és jobban megértsük, hogy ki tartja magát latínónak de amellett milyen más identitásai is vannak. (az, hogy trump a latínók körében erősített, önmagában nem cáfolja azt, hogy a trump-szavazat jelentős részben egy fehér identitáspolitikai megnyilvánulás - ugyanis semmilyen teória nem állítja, hogy csak emiatt szavaznak trumpra, illetve a két identitás amúgyse zárja ki egymást.) itt csak annyi megjegyzés, hogy a pollok amúgy jól mutatták az irányt: sokak számára (nekem is) meglepetés volt előzetesen, hogy több kutatás jelezte, hogy trump erősebb a latínók között, mint 2016-ban, sokan ennek a jelentőségét különböző okokból (nehezen mérhető csoport stb.) igyekeztek vitatni. a valóság úgy tűnik még a várakozásoknál is jelentősebb eltérést mutatott, legalábbis egyes államok egyes részein - és itt felmerülhet, hogy nem volt-e olyan herding hatás, amivel az amúgy pontosabb pollok igyekeztek a számaikat közelíteni a várakozásokhoz.
- a fehér, diploma nélküliek, akik miatt WI/PA/MI/OH/IA félremehetett: itt (2016 után) előzetesen is téma volt, hogy mennyire megbízhatóak a mérések, és habár a pollok valószínűleg jól jelezték előre, hogy biden valamivel jobban áll clintonnál ebben a körben, de ennek mértékét lényegesen eltúlozhatták. 2016 után az oktatási végzettség szerinti súlyozásra esküdött mindenki, mint ami az újabb kudarc elkerüléséhez vezet - csakhogy, ahogy tóka gábor is kifejti, a súlyozás önmagában nem csodafegyver, és habár összességében pontosíthat a méréseken, közben növelheti is a hibát. tegyük fel például, hogy nem önmagában a “fehér, diploma nélküli férfi vagyok” az, amitől valaki kevésbé hajlandó/hajlamos a kutatásra válaszolni, hanem kimondottan a “fehér, diploma nélküli trump-szavazó férfi vagyok” (ennek nem kell a “shy voter” jelenségnek lennie, hanem elég, ha valami olyasmi történik, mint amit david shor állít: egyszerűen politikailag nem semleges az, hogy kit érnek el jobban a kutatók.) ebben az esetben hiába súlyozzuk oktatási végzettség szerint a mintánkat, sőt, ezzel akár ronthatunk is a helyzeten, hiszen a “fehér diploma nélküli férfiak” kategóriában mesterségesen felerősítjük a mi inkább bidenhez húzó válaszadóink hangját. [nyilván ez most csak leegyszerűsítés, de ez a lényeg.] szóval a súlyozás nem oldja meg a dolgot, lehet tovább gondolkodni, hogy milyen módon érhetünk el ilyen csoportokat, vagy ha más nincs, akkor csak elfogadni, hogy bizonyos kategóriában nagyobb lehetséges hibákkal kell számolni.
4. a modellekről: sok kritika érte a 538- és az economist-féle modelleket, részben jogosan, részben talán indokolatlanul. én nagy híve vagyok annak, hogy kérdőjelezzük hangosabban meg, hogy mit jelentenek a számok, hogyan fogják meg a bizonytalanságot és hogyan kell értelmezni az egyszeri események előrejelzését - korábban írtam is, hogy valahol a szélén az egész szerintem elég értelmetlenné válik, én nem tudom, hogy most azt, amit 98%-ra vagy 99,9%-ra (vagy esetleg 99,99%-ra) jósolnak, azt hogyan tudjuk igazából értékelni. de valamit azért mondanak a számok, legalábbis adnak egyfajta viszonyítási alapot: biden győzelmi esélyei (~90% a választás előtt) határozottan jobbak voltak, mint clintoné (~70%) négy éve, és ez talán úgy tesztelhető le leginkább, hogy hasonló vagy akár valamivel nagyobb méretű mérési hiba ezúttal “belefért” - biden így is nyert, miközben clinton ugye nem. (a modellek azt is elég jól jelezték előre, hogy 4-5 pont lehet az a popular vote különbség, ahol biztossá válik az elektori győzelem, úgy néz ki, most ebben a sávban vagyunk, de ha az 1 százaléknál kisebb különbségű államok, azaz wisconsin, georgia és arizona átfordulna, akkor kialakulna a 269-269 elektori döntetlen.) amivel szemben picit szkeptikus vagyok, az pont silver saját bizonygatása arra vonatkozóan, hogy a prognózisai jók. az elképzelés az, hogy ha a 20% valószínűségűnek mondott események tényleg az esetek közel 20%-ban következnek be, akkor jó az előrejelzés, és ennek alapján csinálnak ilyen calibration plotokat:
egyrészt ez még mindig kicsit azt mutatja, hogy az alacsony valószínűségű események esélyeit túlbecsülik általában, de mivel - amennyire értem - ez a plot nem független eseményeket tartalmaz, illetve az elnökválasztási modellen négy évenként újra babrálnak valamennyit, ezért kicsit nekem kétségeim vannak arról, hogy mennyire vannak független megfigyeléseink arról, hogy jó-e egy modell vagy nem. de mondom, szerintem ezeket a számokat érdemes úgy kezelni, mint amik egy támpontot adnak, de amúgy a modellre jellemző dolgok, és nem úgy, mint ami a “valóságot” feltétlenül jól meghatározott valószínűségű lehetséges kimenetekre osztja.
hát ennyi, én azért január ötödike előtt is rá fogok nézni a georgia-i közvélemény-kutatásokra, meg fogom figyelni a modelleket, de persze érdemes a korlátokkal is tisztában lenni.
Én a benchmarkoddal nem értek egyet. Szerintem nem úgy kéne megítélni a hasznosságát, hogy azt mondod, 3.5% hiba az normális, és lám, csak annyi volt, hanem hogy mennyit nyertünk ahhoz képest, mintha a sok beleölt pénzt és erőforrást megspóroltuk volna, és, mit tudom én, a google keresések, az adományok, az állami szintű munkanélküliség alakulása, a demográfiai trendek vagy más amúgy is meglévő adatok, vagy éppen a levegőbe beleszagolás után tippeltünk volna egy nagyot. Szóval kéne egy közvéleménykutatás nélküli legjobb becslés, és aztán nézzük meg az mennyivel lett volna rosszabb. (Szerintem nem sokkal.)
Azis is lehetne egy benchmark, főleg a swing államokban, hogy a pénzfeldobásos jóslásnak (50-50) mennyi lett az átlag hibája, és ehhez képest mennyivel volt jobb a 538 és az economist (ha jobb volt). Sajnos lusta vagyok ezt az amúgy elképesztő elmés számolást elvégezni
a 538 8 allamot (illetve onallo elektori szavazatot) tett “slightly favored” illetve “toss-up” kategoriaba, azaz ezekben volt 70-30-nal szorosabb az elorejelzes. a 8-bol 5 esetben volt jo a “call” ha azt nezzuk hogy kit jeleztek akar picit is de eselyesebbnek (texas, iowa, ohio, georgia, arizona), 3 esetben nem (maine-2, nc, florida). nyilvan a fentebb leirt dolgok ezek korrelacioirol tovabbra is igazak, de ha csak igy nezzuk, akkor ez egy 62,5%-os call rate, olyan esemenyek valoszinusegere amikre 50-70% kozti joslatokat adtak. ez azert pontosabbnak tunik, mintha ezeket mind csak 50-50-re becsultuk volna. persze onmagaban ahhoz mar kell egy becsles, hogy mik lesznek a swing state-ek. (tudom, te a projektalt kulonbsegekre mondanad, ami nem ugyanez.)
Na jó, most már kiváncsi lettem, úgyhogy utánaszámoltam, remélem nem rontottam el semmit. Mivel valóban az is adat, hogy mi lesz swing state, ezért gondoltam, hogy egyszerűen csak veszem a 2016-os swing state-eket, és ezeknél összehasonlítom, hogy mennyi egy 50/50 “coin toss forecast” átlagos hibája, és mennyi volt az 538 projektált százalékainak a hibája. Elvileg ha az ember nem gondolkodik rajta, hanem csak veszi az előző választás swing state listáját, az eléggé nem kéne hogy kedvezzen a coin toss jóslatnak, mert ha azok közül valami már nem swing state, akkor ott a fifty-fifty nagyon nagy hibát produkál. Ehhez képest:
Ha nem basztam el semmit, akkor az van, hogy ha a választás előtt minden államnál egy érmével dobtam volna és így döntöm el, hogy ki nyeri, pontosabb lettem volna mint Nate Silver. Erre csak azt tudom mondani, hogy még szerencse, hogy ezek a jóslatok ingyen hozzáférhetőek, mert ha fizetnem kellett volna érte, akkor most dühös lennék.
jó de szerintem itt azért most két külön dologról van szó - a toin coss, mint a szavazatmegoszlásnak egy jó közelítése (50-50-hez közel lesz), és a coin toss, mint az eredmény megtippelése (50% valószínűség minden billegő államban). ez utóbbi azért messze nem lett volna a leghatékonyabb előrejelző modell (a felsorolt 14-ből 11-et biden nyert).
Valójában nem teljesen jó az a táblázatom, mert az ötvenet talán inkább ahhoz a számhoz kellett volna hasonlítanom, amit megadtak esélynek a negyvenezer szimuláció lefuttatása után, az ötven az inkább annak a “benchmarkja”. A projektált szavazatnál nem tudom, hogy m lehet ez a szám,i az az alaphelyzet, vagy “háttér“, amihez képest többet kéne tudnia mondani Silvernek. Na de ha a modelljüknek ezeket a százalékait vettem volna:
és hasonlítottam volna a fifty-fiftyhez a négy évvel ezelőtt billegő államokban, akkor az rózsásabb képet festett volna a modelljükről? Szerintem az se fair, hogy te csak arról beszélsz, hogy előre tudták-e jelezni a callt, és hogy ha 50%-nál több államban tudták jól előrejelezni, az akkor azt jelenti, hogy valamit azért jelentenek ezek a jóslatok. Én is inkább hajlok eléggé arra amit @tengereczky mond, hogy ezek a rengeteg munkával, sok idő és okoskodás után, aprólékosan és sok műgonddal felépített modellek alig mondanak valamit, hogy annyira gyenge a jel, hogy idén is meg négy éve konkrétan elveszett a zajban. És ez annyira alacsonyra teszi a lécet inden más módszernek, hogy nagyon könnyű ezeknél jobbat jósolni. Amúgy jósolni nehéz, mert kb egy tucat állam dönti el mindig a választást, ahol mindig nagyon szoros eredmény van, de hogy ezeknél az 538-as jóslatoknál pontosabbnak lenni emiatt nem olyan nagy kunszt - nekem úgy tűnik.
Egyszerűen szólva a kérdés az, hogy ha a 3-4 százalékpont hiba az normális, ha ennyi a zaj, ha ennyit tud ez a technológia, közben meg tudjuk, hogy a végeredmény 1-2%-on múlik 5 államban, akkor van-e értelme az egésznek?
De igazából tudok ezen finomítani. Nem azzal van a gond, hogy van olyan, hogy közvéleménykutatás. Nyilván időnként megkérdezni az embereket, hogy mégis kire fognak szavazni és miért, az természetes, és nem érdektelen, még a hiba mellett sem. Szerintem, ami nagyon elszállt az az, hogy hétről hétre, minden államban 5 féleképpen megmérik, ami alapján aztán percenként újraszámol az 538 modellje, és minden változáshoz van egy nagyon okos, szociológiailag beágyazott magyarázata minden újság minden politikai elemzőjének, amikre sok millió ember folyamatosan rá van tapadva, (én is, jegyzem meg, nyilván ez az egész thread abból a frusztrációból származik, hogy mennyi rohadt sok időt elcsesztem ezzel), miközben az egész csak zaj. (Pl, igazából fogalmunk sincs, hogy Hillary tényleg le-föl ment-e 2016ban, vagy tök konstansan Trump alatt volt, pedig fogadok, hogy erről a le-fölről már több kötet született azóta.)
Tök megmaradt, hogy egyszer beszélgettem ilyesmikről tök véletlenül egy bácsikával, aki ilyen szociológusszerű professzor a Columbián, és ő egy sóhaj kíséretében csak annyit mondott, hogy “Hát igen, a jővő az nehéz.”
És hát ez így van, nagyjából egyik tudományág sem bírja előrejelezni mi lesz a saját területén. A pénzügyben annyival álunk jobban, hogy van egy szép elméletünk arról, hogy miért lehetetlen előrejelezni a piaci árakat/ pénzügyi válságokat, és ezért nem gyötörjük magunkat miatta. Lehet, hogy ideje volna ebbe a politológusoknak is beletörődni, és csak a hasznosabb részére koncentrálni a diszciplínájuknak.
amivel egyetértek, az a zaj jelenlétének mérete és annak a kritikája, ahogy minden egyes új kutatás hájpolva van vagy hogy a fivethirtyeight modelljének apró változásaiból próbálunk nagy következtetéseket levonni. de ez inkább a médiának (és maguknak a kampányoknak) köszönhető, nem hiszem, hogy a politológiának (mint tudományágnak) sok köze lenne hozzá.
és szerintem azért a legtöbb elemző itt a kampány közben épp a stabilitását hangsúlyozta a dolognak, csak beidézném ezt a posztomat, 50 nappal a választás előttről miket írtam, illetve annak milyen bizonyítékai vannak végső soron:
- trump stabilan népszerűtlen elnök volt állandó (de stabil) negatív elfogadottsággal => erre nincs ugye egyértelmű teszt, de az azért jelent valamit, hogy hivatalban lévő elnök 1992 óta nem kapta a szavazatok kisebb arányát
- biden viszonylag népszerű jelölt volt => ezt szintén elég konzisztensen megerősítették a pollok, és nyilván akkor itt ugyanúgy nincs értelme belemenni abba, hogy ez a népszerűség pont 51 vagy 55 igazából
- biden országos szavazataránya 50+ (51 fölött van a végeredmény), a kulcsállamokban is 50 körül (valójában pont 269 elektori szavazatnyi államban érte el biden szavazataránya az 50 százalékot, a maradék három általa megnyert államban 49,4-49,5 körül volt)
- bident lényegesen megbízhatóbbnak tartják a fontos kérdésekben, kivéve a gazdaság (erre sincs egyértelmű bizonyítékunk, de ez is olyan, amit azért jónéhány mérés reprodukált)
- a verseny nem lefutott, mert a popular vote - electoral vote különbség (pontosabban a popular vote és a tipping point state vote különbség) 3-4 pontot is elérhet idén (jelenleg ez 3,4 pont, ami még valamennyit nőni fog new york hiányzó szavazataival)
- “ bár biden láthatóan tartja magát a clinton által (és más demokraták által) tömegesen elvesztett fehér, egyetemi végzettséggel nem rendelkezők között (és ezért lehetnek jobbak az esélyei a rozsdaövezet és a közép-nyugat visszahódítására), közben a spanyolajkúak között gyengébben áll, ami veszélyeztetheti pl a floridai győzelmet, márpedig florida nagy lépés lenne az elnökség felé” - szerintem ez egy egész jó jóslat volt
- “ a levélszavazás körüli zűrök, a szavazók elbizonytalanítása, a kérdés, hogy mindenkinek meg is számolják-e a szavazatát, aki leadta, még problémákhoz vezethet“ - ez is, bár ez polloktól független
ezeknek az infóknak a nagy részét pollok nélkül szerintem nem tudtam volna semmiből kiolvasni. szóval szerintem van értelme polloknak, az industrynak nincs értelme abban a formában, hogy a következő wisconsini poll bejelentése hatalmas médiaesemény, de erről meg nem hiszem, hogy a politológusok tehetnek.
még annyi, hogy a politológia, legalábbis annak bizonyos területei nem is nagyon működnének survey-k nélkül. egyszerűen túl korlátozottak az információink, az adatok ritkán jönnek (választások), és akkor is összesítettek valamilyen szinten (megyei, vagy jó esetben precinct-level), amiből mondjuk a szavazótáborok demográfiai összetételére lehet következtetni valamennyire, de az ökológiai tévkövetkeztetések esélye ebben is fennáll. a szavazótáborok közti mozgásra, a szavazók motivációjára vonatkozóan közvélemény-kutatás nélkül sötétben tapogatózunk. (nyilván persze érdemes a különböző okokból pontatlan méréseket kvalitatív interjúkkal, etnográfiai módszerekkel, fókuszcsoportokkal stb. kiegészíteni.) ezek a kutatások persze nem feltétlenül ugyanazok, mint a média által hájpolt és előrejelzésre használt horserace-mérések, és nyilván az se véletlen, hogy a gallupnak, ami az elnöki közvélemény-kutatás szinonimája volt a huszadik század nagy részén, ez már a második ciklusa, hogy nem csinált horserace-mérést (az indoklásuk szerint azért, mert már vannak elegen a bizniszben, és ők inkább kiaknázatlan területekre fokuszálnak, de azért nyilván az is benne volt, hogy minek égessék magukat a nehezen eltalálható fifty-fifty versenyek megjóslásával, amikor annyi mindent lehet mérni, ahol talán világosabbak a különbségek és a tendenciák). de nem minden kutatás egyformán haszontalan, ott van pl nate cohn és az upshot: két éve az egyik legpontosabb méréseket produkálták a midterm előtt, ki is érdemelték az A+ értékelést a 538-től. most nekik is voltak hibáik, de cohn végig hangsúlyozta is ezt a lehetőséget. (ott volt a táblázataikban az “eredmény, ha 2016 méretű hiba van” oszlop, ami végülis elég jól közelítette a végeredményt.) illetve ők visszakövetik, hogy az általuk megkérdezett emberek közül végül ki szavazott és ki nem, ami megint csak adhat utólag egy pontosabb képet.
szóval összességében igen: a pontos prognózisokat el kell felejteni, de a potenciálisan torz mérésekből szerintem még mindig több következtetés levonható, mint csak úgy beletippelni a vakvilágba. ha mást nem, akkor nagyjából pontosan tudtuk például az államok egymáshoz közti viszonyát (florida és wisconsin voltak nagy rontók ebben biden szempontjából), amit ugye egy pénzfeldobás nem igazán reprodukálna.
Amugy az nem lenne megoldas a kozvelemenykutatsok csomo problemajara ha egyszer epitene valaki egy normalis panelt? Mmint az alapveto problemanak az tunik h nem-valaszolas/valaszmegtagadas nem random, es a tarsadlom egy olyan fura subsetjebol probalunk kovetkeztetni a teljes lakossagra, aki vmiert hajlando kozvelemenykutatasokra valaszolni. Szoval egyszer osszerakni egy jo mintat, szemelyesen megkeresni mindenkit, beleolni a vilag osszes penzet es idejet h mindenkit megtalalj a mintabol es bevond a kutasodba, fizetni nekik h valaszoljanak, bizalmi kapcsolatot kiepiteni veluk, es utana mindig ugyanezeket az embereket megkerdezni mindig h most epp kire szavaznanak? Pl a hollandiai LISS panelnel, ahol online kerdoiveket toltenek ki a minta tagjai, odaig mentek h akinek nem volt a mintajukbol 2007ben szamitogepe es/vagy internete, annak adtak csak h bekeruljon. Nyilvan egy ilyen mintat is karban kell tartani h kovesse az orszagban/allamban a szociodemografiai valtozasokat, de nem tunik lehetetlennek. Abba olni az effortot es a penzt h elerd h mindenki valaszoljon neked, sokkal ertelmesebbnrk tunik mint mindig mas keresztmetszetet felhivni es elfogadni h mondjuk 10-bol 1 ember fog neked valaszolni es utana tippelgetni arrol a sulyozassal h mi lett volna ha valaszolnak azok, akik nem valaszoltak. Sokkal jobban kovethetoek a valtozasok is egy panelben (konkretan kik azok akik 4 eve mondjuk nem szavaztak most meg igen).
Vagy ennek van vmi hatulutoje azon kivul h kurva draga?















