vit_r: default (Default)
[personal profile] vit_r
Sorry, there is no English verstion. Some explanations are in the technical post. You also may ask questions here.


black_cat_symbol Дорогие друзья, усаживайтесь поудобнее. Послушайте воскресную сказку про Хитрые Цифры, Странные Выборы, Чёрного Кота и Страну Лжецов.

Я давно работаю с числовыми данными. Я искал их по штучке и нырял в глубины завалов, расчищал от мусора и собирал как конструктор, видел числа честные и подлые, огромные и крошечные, странные и очевидные, красивые и уродливые. Но до сих пор не попадались мне числа смешнее, чем те, что опубликовали в отчёте о мартовских выборах в России.

Представьте, кто-то говорит, что монетка выпала орлом восемь раз из десяти.

Статистика подсказывает, что восемьдесят процентов - это многовато. Но житейский опыт шепчет, что не надо верить формулам. Всякое случается. Когда мы с женой первый раз решили кинуть монетку, она стала на ребро.

Вы берёте листок с результатами, пробегаете глазами и с удивлением замечаете, что это не просто восемь из десяти, а десять раз по десять бросков и в каждой серии восемь из десяти.

От такого и житейский опыт начинает немного сомневаться.

Потом вы смотрите внимательнее и выясняете, что монетка выпадает в ритме четыре орлом - решка, четыре орлом - решка, четыре орлом - решка... И так каждый раз за редкими исключениями.

Тут уж самый закоренелый скептик начнёт подозревать нечистую силу или нечистые руки.

Вот так было и на этот раз. Сами по себе цифры не выглядят слишком подозрительными, но начинаешь углубляться, и мозаика складывается в совершенно фантастические картины.

Посмотрим, как избирательные комиссии придумывали цифры в протоколах, и как магия чисел выдаёт их безуспешные попытки скрыть приписки.

Научное доказательство влияния психологии математики на результаты выборов достаточно сложны и занудны. Простые расчёты тут не подходят и надо выстраивать цепочки событий.

Если по отдельности математическая вероятность каждого странного числа более-менее попадает в пределы допустимых отклонений, то, нанизывая на формулу факт за фактом, можно набрать в вероятности честности этих выборов любое необходимое количество нулей после запятой, доведя её до таких размеров, что не видно будет и под микроскопом.

Но мы без этого обойдёмся.

Во-первых, это скучно.

Во-вторых, на формулы сползутся толстые дяди с ворованными докторскими и начнут нести математическую чушь. Ничего нет глупее ситуации, которая вынуждает объяснять напыщенным баранам, что даже в условиях военного времени косинус фи не может быть равен четырём.

В-третьих, построение всеобъемлющей математической модели потребует шестизначного бюджета на создание специфического софта. (Я имею ввиду, естественно, европейскую валюту.) Мне же было интересно посмотреть, что можно вынуть из данных одним SQL-запросом, пусть и нетривиальным.

Итак, забудем статистику, вынем житейскую мудрость, позовём Чёрного Кота и зададим простой вопрос: В каком проценте протоколов УИК записаны числа, выдуманные из головы?

Уточню: мы игнорируем согнанных на выборы бюджетников, кинутые в ящик без счёта бюллетени с правильными отметками, числа, честно списанные с экрана калькулятора, и многие другие мелкие хитрости. Нас интересуют только те случаи, которые затрагивают математику и психологию в чистом виде.

Для этого мы используем Теорию Чёрного Кота, представленную на следующей картинке.

black_cat_theory


Скажем, у нас есть развилка, из которой выходит несколько дорожек и нам надо посчитать процент суеверных людей в популяции.

Мы пускаем чёрного кота по одной из дорожек и смотрим, куда сколько человек пойдёт.

Те, кто верит в приметы, сворачивает на другую дорожку. Те, кто не верит или просто кота не заметил, идут прямо.

Если считать, что дорожки равноправны, в среднем по любой дорожке должно пройти одинаковое количество людей. И тех, кто боится примет, и тех, кто к ним равнодушен.

Применив чёрного кота, мы сгоним с этой дорожки тех, кто суеверен.

Мы берём количество людей на этой дорожке и по этому уровню отсекаем остальные результаты. Всё, что выше на других дорожках - это те, кто верит приметы. И те, кто изначально шли по другим дорожкам, и те, кто свернули с помеченной.

Осталось только найти, где в протоколах прячется Чёрный Кот, и можно посчитать количество УИК, которые, придумывая цифры в протоколе, этого Чёрного Кота обошли.

Рассмотрим явку, как результат, за который на этих выборах шла самая отчаянная борьба.

У меня данные, выкачанные с официального сайта двадцатого марта 2018 в 11:21. Они отличаются от окончательных, но для приблизительной оценки это особой роли не играет. Расхождения для нашего рассмотрения несущественные.

Итак, график явки. По горизонтальной оси числа от нуля до двух тысяч, по вертикальной - количество УИК, отрапортовавших это число для явки.

RU_el_18_uiks_counts_by_javka_interval_400-1399_2018-04-24

Хорошо видно, что одни числа подозрительно много УИК любят, другие - подозрительно много УИК избегают. Но мы не будем заниматься беспочвенными подозрениями.

Сначала проигнорируем прямой участок и разложим УИК по столбикам по последней цифре в явке. Чтобы последняя цифра не была первой, отбросим те, где явка меньше десяти.

RU_el_18_last_digit_in_javka_2018-04-26

Столбики отсортированы по высоте. Сначала идут все УИК, где явка заканчивается на ноль, затем все, где заканчивается на пять.

Всего на картинке 97640 УИК.

Хорошо видно, что ноль на первом месте и его подозрительно много.

Если считать, что придумывали цифры люди, которые очень плохо знают математику, можно сказать, что для них только ноль хорош, а все остальные числа одинаково сложные.

Уровень кота на цифре 5 равен 9849 УИК. Вычитаем его из 10754 УИК для нуля и получаем

10754 - 9849 = 905

Если исходить из законности, это много. Если из математики - сущая ерунда, меньше одного процента.

Но второй по популярности стоит цифра 5. Она не так хороша как ноль, но всё-таки очень удобна для счёта. А потом 1, которая чуть больше нуля, но не такая кругло-подозрительная.

Есть ли причина того, что цифра 9 стоит последней? Не подсказывает ли житейский опыт, что на этом графике именно по девятке пробежал Чёрный Кот?

Маркетологи считают, что да.

Зайдите в любой магазин и посмотрите на ценники. Там масса девяток на хвосте. Или в чистом виде, или в варианте вроде ".95", ".98", ".49" и так далее.

Девятка - последняя цифра в предыдущем десятке. Число, оканчивающиеся на неё, кажется людям гораздо меньше следующего.

На этих выборах усиленно тянули вверх явку. И потому вполне логично предположить, что именно девятку при этом обходили стороной.

Уровень девятки - 9319 УИК.

Предположим, что без Чёрного Кота на каждую последнюю цифру должно было приходиться одинаковое число УИК, честно посчитавших наличные бюллетени (или честно подбросивших, а потом честно посчитавших). Также игнорируем вероятность того, что те УИК, где числа придумывали, тоже могли написать девятку в конце числа.

Получается, десять раз по 9319 честных УИК. Итого

97640 - ( 9319 * 10 ) = 4450

Это уже четыре с половиной процента.

Не забываем, что явка - это не графа протокола, а сумма трёх отдельных граф, потому что какое-то количество бюллетени может быть выдано и досрочно, и вне помещения. А эти числа связаны с числом полученных бюллетеней, а те с числом бюллетеней для каждого отдельного кандидата.

То есть, почти на каждом двадцатом УИК числа в протокол придумывали.

Но это ещё не всё, копаем дальше.

Теперь возьмём две последних цифры явки.

Тут есть несколько сложностей.

Во-первых, число УИК на первой сотне очень быстро растёт.

Отбросим этот участок. Тем более, что простор для приписок тут ограничен: сочиняющий цифры может прибавлять единицами, а не десятками.

Во-вторых, после сотни число УИК достаточно быстро падает. Если для последней цифры это не важно, то на рядах пар от 00 до 99 начальные комбинации будут просто в силу наклона графика иметь больше УИК чем те, что начинаются на девятки.

Кстати, максимум для явки на числе 100. Для голосов за Путина тоже на 100. А, вот, для действительных на 95. (100 в действительных только четвёртый результат после 109 и 125. Зато, число 95 - второй результат в явке.)

Что говорит об этом житейская мудрость? Статистика удивляется.

Для следующего теста вырежем из графика явки участок от 400 до 1399.

Получается десять серий по сто пар цифр от 00 до 99. Цифры, стоящие перед ними, не учитываем.

На самом деле, это неправильно. Например, числа 777 и 1377 - гармоничные и потому популярнее соседних. А число 877 хуже соседних 876 и 878. 677 тоже хуже соседних 676 и 678.

Но для простоты считаем, что разница в количестве УИК в этих случаях вызвана просто случайными отклонениями а не злым умыслом. Так как одна и та же пара повторяется в десяти разных числах, ожидаем что отклонения вверх и вниз компенсируются, оставив среднее, на которое и статистическая ошибка, и цифры в начале числа уже не влияют.

Кстати, запомните гармоничную пару 77, она нам ещё пригодится.

Также возьмём график для графы "путин" и вырежем оттуда более-менее прямой участок 400-899.

RU_el_18_uiks_counts_by_putin_interval_400-899_2018-04-24

Получилось пять серий по сто пар.

Для наглядности сначала обработаем их. Соберём в столбики по двум последним цифрам и расположим их в порядке убывания. Чтобы от решётки не рябило в глазах, высоту столбиков просто отметим звёздочкой.

Получился вот такой график.

RU_el_18_uiks_counts_by_2_last_digits_in_putin_400-899_2018-04-17

Это тот же график, что и для последней цифры, но столбиков в десять раз больше. Если присмотреться, можно заметить некоторые странности. Но сейчас не будем на них отвлекаться. Из путина нам нужны будут только пара точек.

Перед графиком для явки подготовим два игровых поля.

RU_el_18_last_2_digits_places_javka_and_putin_2018-04-17

Верхнее - явка, нижнее - путин. В строках таблицы - последняя цифра, в столбцах - предпоследняя. На их пересечении стоит место столбика в порядке убывания высоты, то есть, количества участков, отрапортовавших цифру, оканчивающуюся на эту пару. На первом месте участков больше всего, на сотом - самое маленькое количество.

Например, берём явку. Столбец 0n, строку 0, видим, что пара 00 в явке выдана в самом большом количестве УИК.

Соответственно, для пары 46 находим на пересечении столбца 4n и строки 6 место пятьдесят пять.

Голубым фоном отмечена первая четверть мест с 1 до 25, рыжим - последняя четверть с 76 до 100.

"first" и "last" - самое частое и самое редкое сочетание последних цифр для строк и столбцов. Их можно игнорировать. Дополнительные цифры были расставлены для другой задачи и мне просто лень было делать новую картинку.

Я использую более сложную визуализацию игровых полей, но её долго объяснять. Будем играть на простой.

Перед тем, как искать Чёрного Кота на графике для явки, упомяну только голубую линию нулей. Все пары, заканчивающиеся на 0 кроме 30 попали на первую четверть мест. Да и пара 30 ушла всего на тридцать второе.

Впрочем, тройке постоянно не везёт. В десятичной системе её трудно складывать.

Итак, приступим.


 RU_el_18_two_last_digits_in_javka_2018-04-26


Теперь поищем Чёрного Кота.

Игра простая. В таблице немного рассказано об отмеченных парах и посчитано, какой процент обмана получается, если Чёрный Кот обрезает дорогу на этом уровне.

Если житейская мудрость подсказывает, что дело нечистое, смотрим на процент справа в строке таблицы и копаем дальше. Если есть надежда, что такое совпадение совершенно случайно, останавливаемся на предыдущем числе.

Две последних цифры Места этих пар цифр Краткое объяснение гипотезы Уровень обрезания Число “честных” УИК Число УИК с приписками Процент УИК с приписками


Если всё честно, то два нуля на первом месте - это просто статистическая случайность, и отрыв от второго места - это тоже случайность. Вот такие числа получились бы, если поверить.
611 49975 0 0.0%
00 1 Два нуля на конце числа в явке - это приписки, обрежем пик по уровню второго места. 562 49926 49 0.1%
40, 10, 50,20 2-5 Четыре пары, заканчивающиеся нулём, немного подозрительны. И по высоте они выделяются. Похоже, здесь числа придумали. 541 49864 111 0.2%
30 32 Голубая полоса в таблице странновата. Надо бы обрезать данные по этому уровню. По самой последней паре с нулём на конце. 512 49445 530 1.1%
52 90 Неужели пара 52 плохая? Конечно нет! Смотрим на таблицу путина... На пересечении 2 и 5n стоит цифра 2. Очень хорошая пара. Второе место. И на графике высоко забралась.

В одном протоколе две такие хорошие цифры никак не помещаются. Конечно, у одного путина силы мало, чтобы отнести такое хорошее число на задние позиции. Но кандидатов много. Вместе справятся.
468 46691 3284 6.6%
41, 61, 69, 49 92-95 Конечно, это может быть просто случайностью. Но такие похожие пары и практически на одном уровне выглядят слишком подозрительно. Явно их избегали. 462 46145 3830 7.7%
66,44 96-97 Опять 6 и 4. Теперь повторяющиеся. Не буду расписвывать теории психологических механизмов, объясняющие этот феномен. Просто спросим житейскую мудрость, могло ли такое произойти случайно? 456 45572 4403 8.8%
75 99 Вспоминаем, где мы видели 75? Правильно. Рядом с 52, в путине на третьем месте. 452 45182 4793 9.6%
79 100 Последнее место. Да, девятка на конце, но, может быть, хоть здесь допустим простую случайность? Тем более, что в путине это число тоже в последней десятке... Житейская мудрость ничего не подсказывает? Вспомним про 77.

Пара 79 находится между 77 и 80. Рядом 82.

Этой паре просто не повезло попасть в соседство к местам 20, 9 и 10. Приписывающие видят рядом замечательные цифры и немного прибавляют. Или чуть недобирают, чтобы попасть на счастливое 77.
434 43400 6575 13.2%


Итого, добавив одну цифру в цепочку фактов и пару раз глянув на другую графу протокола получили уровень обмана в три раза больше, чем просто для последней цифры. Конечно, это не предел и на какой-то части из четырёх с небольшим сотен УИК, написавших число для явки, заканчиваюееся парой 79, вполне могли не испугаться или не заметить плохого числа. Но остановимся на этом.

В завершение, пара слов о результатах.

В данных с выборов мне были нужны совершенно другие вещи. Black Cat Theory - это побочный продукт, полученный после бесед со статистиками. Просто разговор зашёл о способе оценок аномалий.

Тут только показаны механизмы таких оценок. Как сказано выше, загнать картинки в формулы и математически чисто обсчитать цепочки совпадений - работа достаточно занудная и праткически бесполезная. Нет смысла доказывать очевидное.

Лучше объясню, что говорят 13.2% обмана. (Если у кого меньше и до дна не докопано, я не возражаю.)

Полученная оценка важна не потому, что на каждом десятом УИК немного улучшили цифры. И не потому, что народ думает чуть меньше в пользу власти. И не потому, что победа немного не честная. Даже не потому, что в российской демократии есть небольшая примесь диктатуры.

13.2% - это в нормальной стране вылилось бы в шесть с половиной тысяч судов простив председателей участковых избирательных коммиссий и их пособников. И, естественно, в полную отмену результатов выборов.

Демократия - это не власть большинства. Выражение воли масс - это фашизм. Посмотрите старую хронику, народ ликует. Фюрер совершенно искренне пытался осчастливить немецкий народ, массы совершенно искрене выполняли волю фюрера. По крайней мере, не возражали. Даже против того, что считали небольшими перегибами.

А евреи, цыгане и прочие унтерменши... Они маргинальное меньшинство. Досадная помеха интересам большинства населения.

Именно потому в демократической стране такое недопустимо. Даже, если у оппозиции есть один голос, он должен быть услышан. Честным, независимым и бухгалтерски точным способом.

Да, демократия - это система со многими изъянами. Да, политики рекламируют, заманивают, преукрашивают и вводят в заблуждение. Да, партии борются прежде всего за свои интересы. Да, административные механизмы применяются для затыкания неудобных. И много чего есть ещё ошибочного и вредного.

Но всему этому противостоит механизм оздоровления. Неуклюжий, медленный, но работающий.

13.2% - это показатель того, что механизм этот в Российской Федерации безнадёжно сломан.

Не важно, сколько мёртвых душ приписали те избирательные комиссии. Не важно от какой они партии и в пользу кого изменяли числа.

Даже один процент - это уже катастрофа. Власть в стране принадлежит не народу, не силовым структурам, не подпольным и явным кремлёвским миллиардерам.

Власть, по крайней мере не меньше десятой её части, в руках учительниц и завхозов, безнаказанно искажающих числа в протоколах выборов.

Да, если они обнаглеют и напишут туда не то, что от них требуют, местные чиновники и силовые структуры восстанут и аннулируют результаты. Но это будет уже совсем другая история.

Date: 2018-04-28 07:14 am (UTC)
From: [identity profile] veremeenko-alex.livejournal.com
Проверте теорию сначала на 3-5ти 100% честных выборах, а потом 3-5 100% фейковых.

Date: 2018-04-28 08:24 am (UTC)
From: [identity profile] veremeenko-alex.livejournal.com
Банальная проверка теории. Проверка по не российским.
rotbar: (Default)
From: [personal profile] rotbar
Апплодирую стоя!

Profile

vit_r: default (Default)
vit_r

February 2026

S M T W T F S
12 34 567
8 91011121314
15161718192021
22232425262728

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 10th, 2026 11:42 am
Powered by Dreamwidth Studios