Алексей Пампоров: Електорални нагласи: резултати, вероятност и прогнози (кратък наръчник за разпознаване на „фалшиви“ данни)

В памет на социолога-правозащитник Емил Коен

Ако следите новинарските потоци в България, най-лесно се предусеща, че наближават някакви регулярни или предсрочни парламентарни избори по това, че първо изведнъж зачестява появата на новини за данни от „социологически изследвания“ и второ – данните от различни „агенции“ започват да се „застъпват“ като поредни дни на обявяване и да си „противоречат“ като общи изводи. В очите на неинформираната аудитория тези противоречия създават впечатлението, че електоралната социология, „не е точна наука“, че данните са „стъкмистика“, и че социолозите от агенциите са „к**ви“ или „подлоги“ на политическите партии[1].

В статията си „Кой се страхува от социологията“[2] през 2016 г. съвсем ясно показах, че социологическите агенции всъщност съвсем добре са си свършили работата и в крайна сметка резултатите обявени от ЦИК през 2014 г. са близки до предварително публикуваните електорални нагласи, а разликите са в границите на т.нар. стохастична грешка (т.е. на теоретично очакваното отклонение за съответните относителни дялове). Това, разбира се, не трябва да е изненада, защото представителните изследвания на общественото мнение всъщност са чиста приложна математика, която стъпва на теория на вероятностите и т.нар. закон за големите числа. В това отношение има два задължителни елемента, които трябва да се спазят, за да се намали влиянието на случайните фактори. Първо, трябва да се изследва достатъчно голяма съвкупност (т.е. извадката трябва да е достатъчно голяма, за да е по-малка възможната грешка) и второ – всички единици от генералната съвкупност (в случая лица, които ще имат право на глас към деня на изборите) трябва да имат равен шанс да попаднат в извадката. За да може да се намали цената на дадено изследване, социологическите извадки работят с „гнезда“, т.е. подбират група от съседни адреси, а за да се редуцира ефекта от „социалното сходство“ на тези единици, както и от „самоподбора“ (т.е. склонността на типове хора да се съгласяват или да отказват да участват в изследването) могат да се приложат стратфифициращи критерии, които да удържат извадката в конкретни социо-демографски рамки: по тип населено място, пол, възраст, етнос, гласуване на предходни избори и т.н. Изключително важно е да се подчертае, че за разлика от медицинските изследвания (където поради прекия риск за живота на хората се работи с вероятност за прецизност на резултата 99%), то в общия случай изследванията на електоралните нагласи са с прецизност 95%, при която при извадка от 1000 души максималната грешка е ±3%, а при извадка от 1500 души е 2,5%. Казано с други думи, когато има две изследвания (независимо дали на две агенции по едно и също време или на една агенция в два отделни времеви периода), ако извадките са еднакви като брой изследвани лица и като начин на подбор – то разлика от 2-3% между две партии или „промяна“ за една партия е почти безсмислено да се обсъжда.

Важно и да се каже, че социологическите изследвания на електоралните нагласи работят с два вида относителни дялове, технически наречени „тотален процент“ и „валиден процент“. Казано по-просто, тоталният процент показва какъв дял от „всички лица, които имат право на глас“ вероятно ще гласуват за дадена партия. В този случай, в таблицата или на графиката е редно да се появят данни и за: „няма да гласувам“, „не съм решил“, „друга партия“ и т.н. – в зависимост от това как е зададен въпросът. Валидният процент от своя страна показва как биха се разпределили гласовете на онези, които са решили да гласуват. По тази причина именно той е важен като „прогноза“, защото е теоретично съпоставим с очакваните дялове от валидните бюлетини. Сборът на процентите „гласуващи“ в този случай трябва да е равен на 100%, като в това число влиза и графата „друга партия“ (т.е. не от предварителния списък на изследването).

И така, как да разпознаем „доброто“ изследване, т.е. на кои данни да имаме доверие и как да надушим кога има „нещо гнило“, т.е. кои данни, и съответно „прогнози“ има вероятност да са манипулирани и да не заслужават нашето доверие?

Добрата практика

  • Извадката е достатъчно голяма, за да гарантира, че грешката е приемливо малка. В идеалния случай би следвало да става дума за 1200-1600 изследвани лица
  • Обявен е броят на гнездата, като броят изследвани лица в гнездо е в границата 7-10 души (т.е. нормално е при извадка от около 1200 души да се работи в 120-170 гнезда)
  • Обявена е процедурата за подбор на респондент (анкетирано е лицето с най-близък предстоящ рожден ден, таблица със случайни числа, и т.н., и т.н.)
  • Обявен е размерът на максималната грешка (т.е. колко е отклонението при 50% дялове)
  • Представени са и процент от „всички“ и процент от „гласуващи“ (за да може да се оцени изборната активност, делът „не знам“, делът „друго“ и т.н.)
  • Обявена е точната формулировка на въпроса (защото – колкото и невероятно да Ви звучи – има огромна разлика в отговорите на едни и същи хора, в зависимост от това, дали сте попитали „Ако изборите са днес“, „Ако изборите са утре“, „Ако изборите бяха вчера“, „Ако изборите са следващата неделя“ или „При едни евентуални избори…“)

Ако всички тези елементи са налице, няма формални основания да се съмнявате в данните на дадената агенция или изследователски екип.

Признаци за манипулация на данните или недобросъвестност на изследователския екип

  • Извадката е по-скоро малка (напр. под 1000 души) – тогава грешката е толкова голяма, че се губи прогностичната стойност. Казано иначе, във връзка с изборите обяви ли „социолог“ или „агенция“: „анкетирахме 800 души“ – не им се доверявайте безрезервно, защото дори разлика от 3% между две партии може да е с обратен знак![3]
  • Извадката обхваща само част от населението, имащо право на глас: „жителите на големите градове“, „жителите на градовете“ и т.н. Този подход не пести кой знае колко пари и време на изследователите и клиента, но дава възможност за манипулация чрез модела на екстраполация (особено, ако не е ясно обявен като тегла и не може да бъде проверен, напр. „ние знаем от преди“ не е легитимно обяснение)
  • Извадката не е представителна – т.е. не гарантира равен шанс на всеки, който има право на глас, да попадне в извадката. Телефонните анкети не са представителни! (изкривяват данните в „дясно“). Анкетите с лица, спирани на улицата единствено по полово-възрастова квота не са представителни! (изкривяват данните в „ляво“), и т.н., и т.н. Има доста и отдавна известни модели на предварителна манипулация, произтичаща от подбора, но чуете ли „квотна извадка“ или „телефонна анкета“ – имайте едно на ум, че данните може да не са това, което са[4].
  • Не е обявена максималната грешка (възможен признак за нестохастична, т.е. непредставителна извадка)
  • Сборът на „гласуващите“ не е равен на 100% (т.е. остава въпросът „къде“ са липсващите гласове?)
  • Относителният дял „друга партия“ от „всички“ е по-голям от 4-5% (колкото е изборният праг, със съответната вероятност за грешка при пълна активност), но няма детайлна разбивка. Т.е. това може да механизъм да се „скрие“ факта, че извънпарламентарна партия набира значителна подкрепа. Разбира се, може и да не е така и потенциалните гласове да се разпилени между 5-6 формации, но това е добре да се посочи изрично.
  • При съпоставка между процента „всички“ и процента „гласуващи“ се наблюдава липса на пропорционално увеличение (т.е. при една партия има значително увеличение, а при друга – няма същото, въпреки съпоставимата изходна база). За да може лесно да се ориентирате в манипулациите при преизчислението, трябва да имате предвид следното нещо: При 50% изборна активност на населението и прогнозирани дялове „от всички“ напр. 20%-15%-10%-5%, то следва при валидния процент „гласуващи“ да видите преизчисление съответно: 40%-30%-20%-10%.
  • Не е обявена точната формулировка на въпроса, а само „резултати“, напр. „Електорални нагласи за Европейски парламент“ или „Прогноза за Народно събрание“
  • И на последно място, но не и по значение, ако чуете или прочетете интервюираният „социолог“ в отговор на колегиална критика или журналистически въпрос да казва: „Ама Вие не знаете какви са ми данните/извадката/въпроса и т.н.“ и с това да оправдава неяснотата или противоречието на представените резултати – означава, че зле си е свършил работата и съзнателно или несъзнателно е дал основание за съмнение в своите данни.

Социологията е аналитична наука и отдавна е осъзнала, че приликата между мухата и банката е, че и двете можеш да ги убиеш с вестник[5]. Същото, опасявам се, важи и за политическите партии. Затова е основателно опасението на някои политици, че обявяването на социологически „прогнози“ може да повлияе изборните резултати. Това несъмнено е така, но е факт и друго – няма доказателство за посоката на влияние. Някой симпатизант на „малка партия“ може да се „надъха“ и да отида да гласува, както и да започне активно да анкетира своите приятели, ако иска промяна. Друг симпатизант на същата малка партия може да реши да подкрепи по-скоро „голяма“ партия, с цел „трета“ партия да не дойде на власт или да остане извън парламента. Хората имат различни личностни мотивации и за това не е виновна социологията. Аз бих се застъпил по-скоро за тезата, че обяваването на резултати е възможност хората да вземат информирани решения за своите следващи политически или граждански действия. За да се гарантира обаче, че избирателите няма да стават обект на предизборни манипулации на данни и платен политически ПР през „прогнози“, призовавам социологическата колегия и овластените политици по един разумен начин да се кодифицира и контролира обявяването на данни, резултати и прогнози от изследване на електоралните нагласи.

Аз виждам два възможни подхода за подобна кодификация. По-„модерният“ би бил сформирането на етичен борд/съвет/комисия, към който да функционира електронен регистър за такъв тип изследвания. Всяка агенция, институт или изследователски екип, който възнамерява да проведе подобно изследване – би трябвало да регистрира набор от задължителни елементи преди теренната работа (напр. извадка, метод на подбор, период, финансиране) и да депозира метаданни с методологията, копие от анкетната карта и файл със суровите данни. Може да се помисли за период и нива на ноу-хау конфиденциалност, но при гарантирана възможност за проверка и верификация на данните от независими екперти (членовете на борда или външно рекрутирани специалисти по социология и статистика). Подобен борд може да се учреди като „академично тяло“ към ЦИК или към Българската социологическа асоциация, която отдавна е приела професионални стандарти за представяне на данни от социологически изследвания – но (за разлика от повечето професии, които изискват висока професионална квалификация) т.нар. „социологически агенции“ към момента не са задължени да са членове на БСА или да спазват стандартите.

По-„традиционният“ би бил възстановяването на НЦИОМ, което регулярно (но отново под независим професионален мониторинг) да обявава електорални нагласи – напр. 3 или 4 пъти годишно. За да се избегне обременяването на Народното събрание с подобно звено, НЦИОМ може да функционира под шапката на НСИ (където има утвърдени специалисти по статистика), под шапката на БСА (за да се избегне трупането на държавна администрация) или като микро-звено към БАН. В този случай, разбира се, трябва да се гарантира, че НЦИОМ ще има функции само по отношение на изследване на електоралните нагласи и няма да се явява държавно финансирана пазарна конкуренция на частните агенции в други аспекти (каквито критики имаше към НЦИОМ преди). Каквото и да се реши в това отношение обаче, ще е по-добре за науката „Социология“ от сегашната ситуация, защото дори „една капка катран може да развали меда“, т.е. дори и едно некоректно изследване може да остави погрешно впечатление в неспециалистите. Надявам се, че последните, вече ще бъдат малко по-информирани и ще могат да разпознават и сами добрите практики, а такива има.

 

 

 

[1] Всички цитати взимам от стената си във ФБ по повод коментари за данните на една от агенциите

[2] https://www.marginalia.bg/aktsent/koj-se-strahuva-ot-sotsiologiyata/

[3] Има изследвания, които могат да се правят и с „микро“ извадки от 30-60 души, но те не касаят електоралните нагласи на пълнолетното население на страната, а специфични теми

[4] Частично обяснено тук защо е така: https://www.mediapool.bg/dannite-ne-sa-tova-koeto-sa-news285836.html

[5] Merton, Robert K. (1948), “The Self Fulfilling Prophecy

Avatar

Алексей Пампоров

Алексей Пампоров е доктор по социология и доцент в Института за изследване на обществата и знанието при БАН. Ръководи социологическите изследвания на Институт „Отворено общество – София“ (от 03.2007 до 07.2016). Чете лекции по „История и всекидневна култура на ромите“, „Социология на семейството“, „Антропологическа демография" и „Електорални изследвания“ в СУ „Св. Климент Охридски“, както и „Демография и публични политики“ в ПУ “Паисий Хилендарски”.