habrahabr

Кто подписан на Хабрахабр?

  • вторник, 18 ноября 2014 г. в 02:11:32
http://habrahabr.ru/post/242951/

Привет, Хабр!

Прошел год с момента моей предыдущей статьи, и моя графоманская натура взяла верх над ленью и заставила опубликовать еще одно небольшое исследование.

Название у статьи, конечно же, слегка лицемерное (но зато звучит красиво). Правильнее было бы назвать так: «Кто подписан на Хабрахабр Вконтакте».

Как вы уже, наверное, поняли, мне стало интересно посмотреть кто, откуда и как читает Хабр, лайкает Хабр, репостит Хабр (впрочем, последние два пункта в эту статью уже не влезли). А заодно понять, какие же города, страны, вузы и т.д. самые «захабренные» в VK.

Кому интересно посмотреть занятные диаграммы, графики и цифры по этому поводу, прошу под кат.



Предупреждение.
Для начала пара строк-предупреждений. Я не профессиональный социолог, я не профессиональный SMM-щик или веб-аналитик. Некоторые вещи я мог упустить из виду, некоторые понятия могу называть как-то непрофессионально. За это прошу не бить (хотя бы по лицу), а указывать в комментариях на неточности и замечания. По мере возможностей, буду дополнять и исправлять. Спасибо.
Также, обращаю внимание, что исследуемая выборка — аудитория паблика из соцсети «Вконтакте». А это значит, что данные пользователей в ней периодически могут изменяться, они могут быть неверны или неточны. Поэтому когда я буду говорить «читатели Хабра состоят на 146% из 91-летних мужчин с Острова Мэн», это не истина в последней инстанции. Просто такова информация, указанная пользователями в профилях.
И последнее: в этой статье я не проверяю никаких гипотез. Эта статья скорее обзорная, поэтому тут будут просто графики да диаграммы, никакой проверки статистической значимости, никаких регрессионных моделей, никаких степеней свободы и хи-квадратов.
Ладно, довольно болтовни, перейдем к делу.


Данные и их обработка


Данные качал с помощью VK Api. Закачивались они в самописную БД, где я данные обрабатывал и анализировал. Первоначально эту БД я писал для анализа других групп и пабликов Вконтакте, но когда работа с ними была закончена, не смог удержаться и решил проанализировать и Хабрахабр тоже.

Впрочем, эта статья не посвящена описанию технических моментов процесса получения данных из «Вконтакте». Примеров работы с VK Api на Хабре достаточно, а уж проектирование и разработку базы данных описывать тем более не стоит. Если вдруг возникнут вопросы – пишите.

Также, если вдруг возникнут предложения проанализировать еще какие-то параметры пользователей, про которые я не описал в статье или подвергнуть такому же исследованию какие-то другие паблики и группы, пишите в комментариях.
Выборка для исследования — сплошная, то есть вся аудитория паблика. Данные были получены в октябре 2014 года, поэтому они могут отличаться (скорее всего, незначительно) от актуальных.

Результаты

Для упрощения повествования я здесь и далее буду употреблять вместо словосочетания «подписчики паблика Хабрахабр Вконтакте» слова «читатели Хабрахабра» или «подписчики Хабрахабра» (да чего уж там, в контексте данной статьи я буду просто говорить «подписчики»). Просто помните, что речь идет именно о «вконтактных» читателях Хабра.

Пол

Сначала взглянем на пол подписчиков:


График 1. Распределение подписчиков по полу

Картинка вполне логичная. Хабр все же сайт для технарей. Исторически среди технарей больше представителей мужского пола, потому и среди подписчиков больше мужчин (при том что в целом во «Вконтакте» соотношение мужчин/женщин примерно 53/47).

Возраст

Посмотрим на количество читателей в разрезе возраста (брал диапазон от 16 до 65).
Но вы справедливо заметите: так ведь и активные пользователи «Вконтакте» люди в основном до 30-35 лет. Верно:


График 2. Общее распределение пользователей Вконтакте по возрасту

Поэтому на графике я приведу две линии. Первая – это распределение количества подписчиков по возрастам в абсолютных цифрах. Вторая – это «эталонное» распределение подписчиков, то есть то, как должны были бы распределиться подписчики Хабрахабра по возрастам, если б они распределялись так же, как и все пользователи Вконтакте в целом.


График 3. Абсолютные и «эталонные» значения распределений пользователей по возрасту

И чтоб было совсем понятно, приведу график процентного соотношения подписчиков Хабра к общему количеству всех пользователей Вконтакте этого возраста:


График 4. % подписчиков от общего количества пользователей Вконтакте.

Вполне логичная картина — наибольшей популярностью Хабрхабр Вконтакте пользуется у 20-25 летних людей. Пик на 64 годах объясняется тем, что по умолчанию при регистрации Вконтакте устанавливается (или, по крайней мере, устанавливался раньше) 1950 год рождения. Но почему такого скачка нет на графике 2, я пояснить не могу.

География. Страны

С возрастом и полом разобрались, поехали к географии. Для удобства разобьем диаграмму на два разных диапазона (иначе на диаграмме ничего кроме первых четырех стран нельзя будет различить). «Основные» страны, в которых подписчиков больше всего:


График 5. Страны, где больше всего подписчиков Хабрахабра

И «малочисленные» (ограничимся странами, где есть хотя бы 100 подписчиков):


График 6. «Второстепенные» страны подписчиков Хабрахабра

Логичный вопрос – во-первых, с чего я взял, что все указавшие у себя в профиле родным городом New York, действительно живут в США, а не в каких-нибудь Нью Васюках? Да ни с чего. Не проверить это никак (по крайней мере простым способом), так что придется верить на слово.
Во-вторых, Хабрахабр сайт русскоязычный. Логично, что популярен он будет прежде всего среди российских пользователей. Но и Вконтакте соцсеть популярная в основном среди русскоговорящих людей. Это либо жители экс-СССР, либо эмигранты, если речь идет о дальнем зарубежье. Поэтому давайте применим тот же прием, что и с возрастом. Посмотрим на процентное соотношение подписчиков к общему числу пользователей Вконтакте из той или иной страны (в дальнейшем я буду называть такое соотношение «нормированный процент подписчиков» для экономии места и времени. Возможно, в SMM науках есть какой-то правильный термин для этого понятия — если есть, то подскажите).
Смотрим на диаграмму и видим любопытные вещи:


График 7. Процентное соотношение подписчиков к общему числу пользователей Вконтакте по странам

Удивляет Ямайка и Япония. Подозреваю, что здесь замешаны аниме и кхм… пусть будет музыка регги. Достаточно посмотреть на аватарки подписчиков из Японии:)


В общем, допущу вольность и исключу их из нашего списка как результаты, вызывающие подозрение.

Лирическое отступление
Кстати говоря, у VK интересный то ли баг, то ли фича, который наверняка знаком опытным пользователям ВК API, но для меня был открытием и заставил немного понервничать.
Если просто искать среди подписчиков людей из Японии, то получим всего 13 человек:



Стоит нам, однако, указать еще и город, получим совсем другую картину:



Поэтому информацию о странах я изучал основываясь не на поиске по группе, а на данных непосредственно со страниц пользователей.


Убрав эти две замечательные страны, получаем:


График 8. Нормированный % подписчиков (без Японии и Ямайки)

Самое интересное тут, что ни Россия, ни Белоруссия, ни Украина не попадают даже в тройку.
Россия же и вовсе делит свою строчку с Нидерландами.

Если Японию, Ямайку или, например, Гондурас у нас любят указывать как страну проживания «чисто по-приколу», то заподозрить, что аналогично поступают с Финляндией или Таиландом мне сложно. В связи с этим, предполагаю, что, скорее всего, это действительно подписчики, проживающие в этих странах. Почему тогда Россия лишь в середине списка? Предполагаю все дело в следующем: кто уезжает заграницу и при этом активно пользуется соцсетями? Думаю, что в значительной степени высококвалифицированные специалисты в области IT, которым сам бог велел интересоваться Хабром. Вот и получается, что в среднем Хабр среди русскоязычных людей, живущих за рубежом популярнее, чем собственно в России.

Если посмотреть на Европу (без стран экс-СССР), то карта популярности Хабра (учитываются страны, где есть больше 100 подписчиков) будет выглядеть примерно так:



Следующие пара абзацев вплоть до раздела «География. Города» — мои лирические рассуждения на тему поиска, возможно, не очень интересной и не очень существующей взаимосвязи. Кому неинтересно — листаем сразу дальше

Давайте еще чуть-чуть географии и экономики. Обратим взор туда, где ситуация должна быть проще, а именно на страны экс-СССР. Здесь русскоговорящего населения подавляющее большинство, так что оценивать популярность Хабра во ВКонтакте можно с меньшей долей недоверия.

Просто так смотреть на страны экс-СССР не очень интересно, хочется понять, почему в той или иной стране интерес к Хабру выше. Логичным будет предположить (черт, все-таки не удержался от гипотез, хоть и обещал в начале), что чем выше уровень развития информационно-коммуникационных технологий (индекс ИКТ) в стране, тем больше там интерес к сайтам такой тематики (читай, к Хабру). Данные по ИКТ взяты отсюда (нет данных по Таджикситану, Киргизии и Туркмении).

Сначала график:


График 9. Зависимость нормированного % подписчиков от индекса ИКТ.

Даже не знаю, что тут и сказать. Я планировал, что будет сильная корреляция и я, сыграв роль Капитана Очевидности, просто озвучу этот факт. Однако, зависимость, прямо скажем, не ахти (коэф. корреляции Пирсона, например, будет около 0,5). Очень сильно выделяется Украина. Первой мыслью было, что в Украине весь интерес к Хабру сосредоточен лишь в немногих городах или областях, что и вызывает такой разрыв. Однако, если взглянуть на карту Украины, то увидим, что нормированный процент распространен достаточно равномерно:



Ожидал увидеть другую картину в абсолютных цифрах, но и тут все более-менее равномерно:



Так что то ли индекс ИКТ необъективен, то ли жители Украины интересуются Хабром вопреки его низкому значению, то ли он и и в вправду не причем.

Кстати, если ради интереса построить график, аналогичный графику 9, уже по всем странам (кроме Японии и Ямайки), то получим почти такую же картину:


График 10. Зависимость нормированного % подписчиков от индекса ИКТ (по всем странам).

География. Города

Пойдем проторенным путем. Изучать будем процентное отношение подписчиков Хабра к общему количеству пользователей Вконтакте из этого города. Рассматривать будем только те города, в которых количество подписчиков больше 10.
Для начала, для торжественности момента глянем на карту мира. Точками отмечены города, где количество подписчиков Хабра больше 10. Некоторые города могли не попасть на карту из-за несоответствия названия городов в ВК и Google Chart API – мне было лень вручную править сотни названий, так что извиняйте, главное — размах понятен!



Ну и не забываем, что это все лишь данные из соцсети, а не со страницы паспорта. Так что, возможно, все, кто указал «Мельбурн», живут на самом деле в моем родном Долгопрудном.

Кстати, я упомянул свой родной город не зря. Посмотрите на ТОП-30 российских городов по проценту подписчиков Хабра:


График 11. Нормированный % подписчиков по российским городам. ТОП-30

Такую гордость за родной город я испытывал последний раз пару лет назад, когда ФК «Долгопрудный» стал победителем третьего дивизиона Чемпионата России по футболу. Я честно ничего не подгонял. Случайную ошибку или какую-то особенность поведения ВКонтакта, который «подсовывает» больше данных в поиске из твоего города еще могу допустить, но и то вряд ли.
Подозреваю, что такой показатель объясняется большим количеством студентов МФТИ (до этого мы еще дойдем дальше).

Если посмотреть на такую же диаграмму, но по всему миру, то картина будет веселей:


График 12. Нормированный % подписчиков по городам мира. ТОП-30

Подозреваю, что данные не очень достоверны. Но, по крайней мере, понятно, где мечтали бы жить многие хабравчане :)
Я вас, наверное, уже утомил с географией. Переходим дальше.

Вузы

Сначала возьмем ТОП-30 по абсолютному числу подписчиков (ВУЗ у многих скрыт настройками приватности, поэтому не удивляйтесь маленьким абсолютным количествам):


График 13. Количество подписчиков по ВУЗам

Никаких сюрпризов на мой взгляд. Теперь посмотрим, как всегда, на нормированный процент подписчиков:


График 14. Нормированный % подписчиков по ВУЗам

Занимательно, что на первом месте казахстанский ВУЗ. Из российских ВУЗов, как я и предполагал выше, МФТИ самый захабренный.

Политические взгляды, мировоззрение и т.д.

Еще пара диаграмм, которые я не мог не сделать:

График 15. Политические взгляды



График 16. Отношение к алкоголю и к курению

Как мы видим, курение воспринимают хуже, чем алкоголь (впрочем, это общевконтактный, если не общемировой, тренд)


График 17. Семейное положение

Что интересно, в целом по VK людей в браке в 1,5 раза больше чем в статусе «не женат». Да и вообще распределение другое:


График 18. Семейное положение пользователей ВК

Различия даже будут статистически значимы, но ничего удивительного тут нет – подписчики Хабра люди в основном молодые и потому сочетаться законным браком еще не успевшие.

Итоги

Итак, подведем небольшие итоги и раздадим премии «за захабренность Вконтакте»:

Самая захабренная страна – Белоруссия
Самый захабренный город – Palo Alto.
Самый захабренный город в России – Долгопрудный.
Самый захабренный ВУЗ — МФТИ
.

Ну а тебе, 24-летний холостой выпускник МГУ, имеющий умеренные политические взгляды и не имеющий вредных привычек, надеюсь, было хотя бы немного интересно.

Если у меня дойдут руки, а кому-то из хабровчан будет интересно, то в следующей статье будем анализировать лайки и репосты, материала у меня еще много.

Спасибо за внимание.