news.shamcode.ru | Считаем чужие лайки: есть ли на Хабре накрутки?

Считаем чужие деньги: сколько Хабр тратит на ППА в месяц?

Как и в любом сообществе, на Хабре есть свои мифы, суеверия и легенды. Один из таких мифов звучит примерно так:
«Сегодня Хабр умирает особенно мощно. Администрация ресурса, ведомая беспрецедентной алчностью, распахнула ворота платформы перед коммерческими компаниями. И теперь солнце над Хабром навсегда заслонили корпоративные аккаунты, в которые пишут лишь посредственные рерайтеры и LLM. Разрозненная и всё уменьшающаяся горстка независимых авторов, помнящих, каким был тот Хабр, не способна ничего противопоставить стихийному бедствию. Ведь любую корпоративную статью через минуту после публикации боты накручивают до +10 рейтинга. И она катапультируется прямиком на первую страницу ленты Лучшее за сутки.»

Если попросить привести какие‑нибудь аргументы в пользу данного тезиса, вам вполне могут сперва сказать:
«Вы что, сами не видите?! По‑моему, это очевидно. Конечно, у меня нет точных данных, так как доступ к API Хабра закрыт и об истинном положении вещей мы можем лишь гадать, но...»
А после волшебного «но» продолжить:
«...но по моим внутренним ощущениям корпоративные рерайтеры пишут уже порядка 70‑80‑90% всех статей Хабра. Вот, например, одна статья, которая мне не понравилась. Разве может быть у статьи, которая мне не нравится такой высокий рейтинг? Не может! Уж поверьте моему опыту, я давно тут варюсь и всё‑всё знаю. А если уж вы хотите объективный критерий, то советую обратить внимание на отношение времени публикации в миллисекундах к количеству закладок. Оно выглядит крайне подозрительно»

У въедливого зануды подобный ответ мог бы породить ещё больше вопросов. Однако не все выражения, которые мы слышим в жизни предназначены для вдумчивого осмысления. Например, странно было бы обсуждать индексы Ласпейреса и Пааше в беседе, начавшейся с фразы «Вот раньше на рубль можно было купить первое, второе и компот, а сейчас...»

Тем не менее. Если вы тот самый въедливый зануда, для которого не «всё и так понятно», то специально для вас я взял карандаш, бумагу, графический программируемый калькулятор Casio fx‑7000G и кое‑что посчитал.

Простое объяснение, почему история про то, что все корпоративные аккаунты накручивают рейтинг всем своим статьям до первой страницы суточного топа — это миф.
За сутки на Хабре публикуется кратно различающееся количество статей.
Иногда очень мало. Например, 24 ноября 2024 года было опубликовано всего 22 статьи.
Иногда весьма много. Например 25 января 2025 года было опубликовано 117 статьей.
Однако в среднем это примерно 75 статей.
Около половины из них (43%, если быть точным) — это корпоративные статьи.
Стандартная страница ленты Хабра вмещает 20 статей. То есть суточный рейтинг — это обычно около четырёх страниц ленты. А первая страница — это, соответственно, ¹⁄₄ от суточного количества статей.
Могут ли 43% статей влезть в ¹⁄₄ суточного топа? Вопрос риторический.

Вообще говоря, любой читатель может прямо сейчас зайти, например, на третью страницу суточного топа, вручную посчитать количество статей с хабами «Блог компании company_name» и убедиться, что они там есть в заметном количестве. Хотя согласно мифу их там быть не должно.

«Хорошо, допустим, не все компании накручивают не все свои статьи. Но в принципе отдельные факты накруток существуют?», спросит въедливый читатель.

Следует определиться с термином «накрутка».

Задумаемся, является ли накруткой событие, когда замечательному автору @zatim (который пишет в корпоративный блог Timeweb Cloud) понравилась, например, статья не менее замечательного @MaFrance351 (который тоже пишет для Timeweb Cloud) и он повысил ей рейтинг? По моему мнению — нет.
Является ли накруткой событие, когда в конце статьи автор пишет широковещательное публичное воззвание «подписывайтесь, ставьте лайки, делитесь в соцсетях»? По моему мнению — тоже нет.
На мой субъективный взгляд в чистом виде накруткой можно считать лишь такое событие, когда один из пользователей
1. приватно…
2. ...в явном виде просит другого поднять рейтинг статье...
3. ...а другой пользователь прочитал статью (до или после просьбы), счёл её посредственной и не стал бы повышать ей рейтинг, если бы его не попросили.

Очевидно, подобное событие требует «поймать за язык» нарушителя и сложно выявляемо даже администрацией Хабра.

В данной статье при рассмотрении конкретных статей вместо обвиняющего термина «накрутка» периодически будет использоваться термин «аномалия» — изменение параметров статьи, которое может являться накруткой, но также может иметь и иную природу.

По-простому

Что могло бы являться критерием, указывающим на аномальное изменение рейтинга статьи?
Несколько раз я сталкивался с мнением: «а давайте по‑простому, пусть критерием будет отношение просмотров к лайкам».

Что же, среди моих собственных статей есть
как статья Согласование импедансов: симуляторы и симуляция с соотношением 778 просмотра на лайк,
так и статья Тщеславный Двач выходит в топ поисковой выдачи с соотношением 87 просмотра на лайк.
Разница практически на порядок для одного и того же не корпоративного автора.
В целом же, в 2024 году публиковалась
как статья не корпоративная Нейросети, боты и сайты, которые помогут раздеть девушку по фото с соотношением 186250,
так и статья Электровакуумные работы в домашней мастерской. Впаи в молибденовое стекло уважаемого @BabayMazay с соотношением 43.

Таким образом, если некая статья имеет параметр просмотры/рейтинг в интервале от 43 до 186250, то прежде чем утверждать, что имела место накрутка, необходимо:

Определить границу, за которой, по мнению говорящего, статьи будут считаться накрученными
Объяснить, почему соотношение в 100, 200, 1000 или 10000 единиц является именно тем пределом, с которым следует производить сравнение
Объяснить, почему вышеупомянутые статьи на границах интервала — «это другое»

В этом месте «простой, понятный и объективный» критерий начнёт стремительно обрастать многочисленными дополнительными условиями, часть из которых будет носить строго субъективный характер.

Критерий

Как же быть, если на Хабре публикуются статьи, абсолютно разные по тематике, стилю, охвату, проработанности и времени публикации?

Давайте ещё раз проговорим основные тезисы мифа о накрутках:
1. статьи накручиваются...
2. ...чтобы попасть в топ‑20 за сутки…
3. ...где их увидит значительное количество читателей.

В этой логике накручивать статью надо как можно быстрее. Нет смысла начинать накручивать рейтинг статье, выпущенной 23 часа назад.

С другой стороны, можно предположить, что количество читателей, желающих добросовестно повысить рейтинг статье размешано равномерно в общем количестве читателей.
Примем пока это предположение за истину, хотя у него есть очень важное исключение, о котором мы ещё поговорим.

Предположим, также, что у нас есть возможность производить замеры рейтинга и просмотров статей через небольшие интервалы времени.
Имея такие данные мы сможем построить и график, где аргументом будет количество просмотров, а значением функции — рейтинг. То есть построить график зависимости рейтинга от просмотров, исключив фактор времени.
И если мы имеем дело с не накрученной статьёй, а активные читатели размешаны равномерно, то график будет линеен и пройдёт через начало координат. При этом не важно, большой охват статьи или нет; растёт ли количество просмотров логарифмически, линейно, экспоненциально или как‑то ещё; влияют ли суточные колебания присутствия пользователей на Хабре на просмотры или нет и так далее.
Если очередные X просмотров дают Y рейтинга, то nX просмотров дадут nY рейтинга, каким бы ни были X, Y и n.

Накрутка же создаёт нелинейность, когда просмотры в конкретный момент времени растут по тому же закону, что и до этого, а рейтинг резко устремляется вверх.

Зададимся двумя вопросами.
Может ли быть накручена качественная и интересная статья, рейтинг которой и так хорошо растёт?
Почему бы и нет? :) Но должна ли такая статья стать мишенью праведного гейткипера? Вопрос дискуссионный.
Несколько более уверенно можно сказать, что оправданной целью для гнева являются статьи, рейтинг которых практически не растёт без накруток.

Если мы пытаемся отыскать именно такие статьи, то можно сделать следующее:

Построить для всех статей графики «рейтинг от просмотров», за определённый интервал времени после публикации (скажем, 48 часов)
Привести ось аргументов к процентному виду по отношению к количеству просмотров на момент окончания 48‑часового наблюдения
Выбрать на оси аргументов две точки. Скажем, 50% и 100%
Поднять перпендикуляры до пересечения с графиком — определить значения рейтинга в этих точках
Провести через эти две точки пересечения тестовую прямую kx+b
Проградуировать ось Y не в лайках, а в долях от пикового значения рейтинга статьи
Найти b (далее я буду называть этот параметр b_50%) — высоту точки пересечения тестовой прямой с осью Y
Если параметр b_50% большой (например, больше 1,0), можно сделать предположение об аномальном поведении рейтинга статьи

Численный пример для иллюстрации принципа работы параметра b50%

Допустим, опубликована посредственная статья. Без накрутки она набрала бы 1000 просмотров и +2 рейтинга в течение 48 часов. За первые 500 просмотров её рейтинг вырос бы до +1, за последние 500 просмотров её рейтинг вырос бы до +2.

Предположим, статью накрутили сразу после публикации на +10, И это привело к увеличению просмотров. Допустим, за 48 часов они выросли в два раза, до 2000.
Естественный рост просмотров за первые 1000 просмотров составил бы +2, А совокупный, вместе с накрутнкой, тогда составит +12.
За последние 1000 просмотров рейтинг естественным образом вырастет ещё на +2 и достиг бы +14.

В таком случае тестовая прямая пересечёт ось Y как раз на уровне накрутки, в точке +10, А если ось Y проградуировать в долях от пикового значения (+14), то b_50% будет равен 0,71.

Зависимость «рейтинг от просмотров» у статьи, рейтинг которой без накруток не растёт

Зависимость «рейтинг от просмотров» у статьи, рейтинг которой без накруток падает

Хватит теории! :)

Выберем предварительно следующие входные параметры: - Время наблюдения каждой статьи: 48 часов - Пиковый рейтинг: все статьи выше +10 - Исследуемый период: декабрь, январь, февраль и март

Теперь возьмём в руки часы Casio с секундомером, выпишем на бумагу исследуемые параметры, замеряя их через определённые промежутки времени. Внесём показатели в программируемый калькулятор Casio fx‑7000G, и посмотрим на результат.

Casio fx‑7000G незаменим для статистического анализа

Вот три статьи‑рекордсмена по параметру b_50%:

Brython: Python в вашем браузере (ч.4),
пиковый рейтинг: +10
параметр b50%: 1,40
Исчерпывающее руководство по комплаенс-тренингам для сотрудников,
пиковый рейтинг: +11
параметр b_50%: 1,36
Закат национальных государств,
пиковый рейтинг: +30
параметр b_50%: 1,33

Исчерпывающее руководство по комплаенс-тренингам для сотрудников

Любитель пламенных аккламаций на этом месте воскликнул бы «Ну вот! Ну вот же! Статьи накручены ровно до попадания в топ‑20 за сутки! Всё, Хабр умирает! Научно доказано!». Хорошо, что скорее всего этот любитель прекратил чтение статьи на четвёртом‑пятом абзаце, чтобы начать строчить комментарий.

Мы же тем временем порассуждаем над не очевидными аспектами полученных данных.

Почему вообще для применения параметра b_50% следует ограничить снизу пиковый рейтинг?
Представим, что вышла некая посредственная статья, которая, однако понравилась пользователю со знаком Старожил. Его голос равен +2 баллам рейтинга.
Остальные пользователи читают статью весьма скудно и где‑то к концу 48‑часового интервала кто‑то ставит статье −1, Параметр b_50% в таком случае будет равен рекордным 1,5, хотя очевидно, никакой наркутки не происходило. Да, параметр b_50% плохо, неадекватно работает для статей с низким пиковым рейтингом.

Хорошо. Пускай нижняя граница выставлена на некоем разумном уровне. Наиболее очевидная мысль — отсортировать все полученные статьи по b_50% и попытаться анализировать эту выборку. Но что это даст? Вот выше примеры трёх статей с ярко выраженным аномальным поведением рейтига. У двух из них пиковое значение равно всё тем же +10, Но +10 это, будем честными, весьма невысокий рейтинг. Сужу по себе, из примерно 25 моих статей лишь одна набрала рейтинг ниже +10, Если качественные статьи «задавливаются» предположительно накрученными до +10 проходными статьями, то:
- либо это не такие уж и «качественные» статьи
- либо аудитория Хабра такова, что не особо ценит качество и не поднимает «хорошим» статьям рейтинг.

В обоих случаях накрутка хоть и неприятный, но далеко не ключевой фактор.

Попробуем сделать чуть иначе. Ограничим сам параметр b_50%: выберем все статьи, у которых он равен 0,9 или превосходит этот порог. А затем отсортируем все полученные статьи по убыванию рейтинга.

Лидерами этой сортировки станут следующие статьи:

Windows 11 — по-прежнему ничего стоящего,
пиковый рейтинг: +43
параметр b_50%: 0,95
Итоги года в видеоиграх,
пиковый рейтинг: +39
параметр b_50%: 1,00
Как измерить успешность дизайна в техническом продукте? Погружаемся в UX-бенчмаркинг,
пиковый рейтинг: +31
параметр b_50%: 0,97

Windows 11 — по-прежнему ничего стоящего

Как измерить успешность дизайна в техническом продукте? Погружаемся в UX-бенчмаркинг

Что мы видим?
Лидер по параметру b_50% — это не самая рейтинговая статья.
А лидер по рейтингу среди аномальных статей — это не самая аномальная статья.

Те же статьи, у которых b_50% настолько высок, чтобы устраивать истерику «А‑а‑а, всё пропало!» нисколько не мешают шедеврам выходить в топ.
Среди статей с параметром b_50%, равным 0,9 или большим лишь 5 статей имеют рейтинг +30 и выше.
И ни одна такая статья не превышает в пике +50.
Строго говоря, если брать, например, критерии ППА Хабра, то статьи меньше +30 не считаются чем‑то достойным вознаграждения. При этом за декабрь, январь, февраль и март статей, достигших рейтинга +100 за двое суток после публикации, на Хабре было опубликовано 102 штуки.

Корпы против авторов

Въедливый читатель мог бы на этом месте возразить:
«Хорошо. Допустим, откровенных накруток, когда омерзительной статье боты накидывают +100, а читатели потом ставят −20, нет. Но что если у статьи рейтинг +80 и параметр b_50% равен 0,75? Это же может означать, что реально статья получила +20, а остальные +60 ей накрутили. То есть нормальную статью накручивают до уровня шедевра, задвигая честные шедевры с честными +50...+70 на задний план.»

Во‑первых, критерий b_50% не идеален. Он исходит из предположения, что количество пользователей, повышающих рейтинг статье равномерно размешано в общем количестве читателей.

А это не всегда так.

Например, если у автора есть значительный пул подписчиков, то они:
- имеют высокий шанс прочитать статью раньше остальных читателей
- имеют бо́льшую мотивацию к повышению рейтинга любимому автору

Пример: упоминавшийся ранее @BabayMazay, у которого есть 232 подписчиков (включая, кстати, меня) и который пишет статьи, столь же интересные, сколь и узкопрофильные. Вот одна из его статей:
Простой утилитарный ламповый усилитель для домашней музыки
пиковый рейтинг: +94
параметр b_50%: 0,62

Простой утилитарный ламповый усилитель для домашней музыки

Существует похожее по принципу, но противоположное по знаку явление: статьи с… отрицательным b_50%!
Например:
DeepSeek на железе за 45к
пиковый рейтинг: +14
параметр b_50%: −0,50

DeepSeek на железе за 45к Рейтинг опускался в отрицательную область

Можно предположить, что определённые гейткиперы, ориентированные на понижение рейтинга некачественным (по их мнению) статьям, более активно (в сравнении с основной массой читателей) просматривают ленту. И они первыми обнаруживают статью, рейтинг которой они хотят понизить.

Иными словами, b_50%, равный 1,2 — это повод задуматься об аномалиях рейтинга, а вот b_50%, равный 0,4 вовсе не повод считать, что 40% рейтинга накручены.

Во‑вторых, рассмотрим другой тезис мифа о накрутках: «накручиванием статей заняты лишь корпоративные аккаунты».

Выберем только не корпоративные статьи. Отсортируем их по убыванию b_50% и посмотрим на трёх лидеров:

Brython: Python в вашем браузере (ч.4),
пиковый рейтинг: +10
параметр b50%: 1,40
Как iPhone заставил UX и интерфейс в авто меняться и почему концерны до сих пор не могут оправиться от этого?,
пиковый рейтинг: +10
параметр b_50%: 1,20
Ключевые элементы бизнеса. Бизнес-модель Остервальдера,
пиковый рейтинг: +10
параметр b_50%: 1,10

Как iPhone заставил UX и интерфейс в авто меняться и почему концерны до сих пор не могут оправиться от этого?

Ключевые элементы бизнеса. Бизнес-модель Остервальдера

Увидь любитель аккламаций «А‑а‑а, Хабр умирает!» такие графики у корпоративных статей, для него было бы «всё очевидно».

Из всего вышесказанного следует, что аномалии рейтинга на Хабре конечно же существуют. Но если мы хотим определить и осмыслить уровень аномалий среди корпоративных аккаунтов, нам стоит сравнивать его не с нулём, а с показателем аномалий статей от независимых авторов.

Для статей с рейтингом от +10 и выше, распределения параметра b_50% для корпоративных и независимых статей будут следующие:

Да, с одной стороны, разница мат.ожиданий вполне отчётлива.
С другой — различия не столь велики, чтобы говорить о засилии, непробиваемости, непроходимости и общем упадке платформы именно в контексте накруток.

Кое‑что поважнее накруток

Зададимся крамольным вопросом: а есть ли разница, сколько именно у статьи лайков? Что именно мы получим, если наша статья набрала высокий рейтинг?

Мы можем получить больше денег за ППА?
Общий объём ежемесячного ППА на всех её участников с учётом налогов сопоставим с одной весьма невысокой по меркам IT‑индустрии зарплатой. Лидеры же ППА (публикующие по 5‑7 статей в месяц) получают примерно по 15‑20 тысяч рублей в месяц.

Мы получим возможность больше влиять на комьюнити, меняя рейтинг статьям и карму участникам?
Чтобы получить знак Автор, дающий голосу вес +2, необходимо написать 10 (десять!) статей с рейтингом +50 и более. Будем честны и откровенны, если автору действительно хочется влиять на рейтинги и кармы и он способен написать 10 хитовых статей, то кратно эффективней ему это сделать из под десяти различных аккаунтов. Конечно мультоводство, как и накрутки запрещены правилами и я всячески порицаю оба явления. Однако с точки зрения объективной логики — это так. Даже с учётом издержек.

Можно сказать, что любая статья пишется для того, чтобы её читали. Много просмотров — это хорошо. А в легенде о накрутках Хабра говорится, что высокий рейтинг прямо или опосредованно (через попадание в топ‑20 за сутки) влияет на просмотры.
Что же, давайте сравним двух авторов:

@amartology В некотором смысле, эталон качественного хабровского автора. Практикующий разработчик микросхем и повелитель кремния. Автор 19 статей по электронике, большая часть которых побывала в суточном топе. Обладатель непотопляемой кармы в +438 пунктов и победитель конкурса Технотекст‑2019.
@blackpot Автор пяти комментариев и одной статьи с рейтингом −9. Обладатель отрицательной кармы −16.

Проблема только в том, что та единственная статья с отрицательным рейтингом от @blackpot имеет 341 тысячу просмотров. Из всех статей уважаемого @amartology самая просматриваемая статья набрала «лишь» 290 тысяч.

Это яркая иллюстрация той ситуации, которую особо внимательный читатель уже увидел на графиках, приведённых в настоящей статье — рейтинг статьи не влияет на просмотры. И попадание в топ‑20 за сутки не влияет на просмотры. И выход на первое место в топ‑20 также не влияет на просмотры.

Для тех же, кто этого не заметил и кому лень скроллить вверх, вот как выглядит, например, попадание в топ‑20 и попадание на первое место отличной статьи Что внутри робота пылесоса от Philips от замечательного электронщика @RV3EFE:

График просмотров статьи, попавшей в топ‑20 за сутки

Видите этот стремительный, буквально вертикальный взлёт просмотров вверх при достижении заветных мест в топе?
Лично я — не вижу.

А что же администрация?

Она работает. Ну, по моим наблюдениям. Вот график рейтинга и график общего количества проголосовавших за статью с длинным названием Как DeepSeek-R1 научилась мыслить и «последний экзамен человечества»: топ-10 исследований ИИ за январь 2025:

Как DeepSeek-R1 научилась мыслить и «последний экзамен человечества»: топ-10 исследований ИИ за январь 2025

Рейтинг, конечно может как увеличиваться, так и уменьшаться со временем. А вот количество голосовавших в обычных условиях — нет. Если только не происходит чего‑то вроде их ручного отката.

Если есть те, кому сложно в это поверить, вот пара снапшотов из Wayback Machine: было, стало.

Вместо выводов

Есть ли на Хабре накрутки рейтинга? Есть.
Накручивают ли корпоративные статьи чаще, чем независимые? Я полагаю, что да.
Оказывает ли это влияние на общую работу Хабра? Я полагаю, что это влияние минимально.
Зачем накручиваются статьи? Вот это, на мой взгляд, вопрос на который нет чёткого ответа даже у тех, кто их накручивает.