habrahabr

Анализ Вконтакте на примере книжных предпочтений участников культурных сообществ

  • понедельник, 29 декабря 2014 г. в 02:11:34
http://habrahabr.ru/post/246941/


Рис.  3. – Книги каких авторов из рейтинга топ100 читают пользователи Вконтакте

Для всех диаграмм в статье есть интерактивные визуализации: graphgrail.com/gg-client/vk_books.html
К 2014 году потенциал традиционных подходов к развитию аналитики социальных процессов оказался исчерпан в силу нескольких причин, главная из которых – неспособность созданных в рамках данных подходов решений адаптироваться к изменившимся условиям формирования общественных законов. Речь идет об их недостаточной динамичности и неприспособленности для обработки данных, поступающих в больших объемах в режиме времени, близком к реальному. Но самый серьезный удар по классической аналитике нанес взрывной рост объемов неструктурированных данных. [1]

В анализе социальной сети в данной работе мы опираемся на концепцию «Больших данных» (BIG Data) – серию подходов, которые позволяют работать с большими объёмами данных, которыми сложно или даже невозможно управлять с помощью обычных средств – они имеют разную структуру и значительную скорость пополнения.
В рамках используемого специального технологического стека решаются многие из  перечисленных проблем, стек объединяет в едином интерфейсе следующие технологии:
  • Теорию графов в качестве инновационной составляющей технологии обработки неструктурированных данных [2]
  • Обработку естественного языка
  • Технологии извлечения информации (дэйтамайнинг — англ. data mining)

В настоящей работе рассмотрен сбор и статистический анализ данных пользователей социальной сети «ВКонтакте» на примере 13 различных типов групп, событий и сообществ культурной направленности: театры, кинотеатры, музеи, фестивали, библиотеки, байкеры, ночные клубы, музыкальные группы, филармония, культурные новости, йога, бары, арт-кафе, антикафе [3]. В общей сложности было собрано и обработано 899 сообществ перечисленных выше категорий с ограничением по географии: рассматривались сообщества города Ростова-на-Дону. Всего из этих сообществ были собраны данные о более чем 65000 участниках. Информация об участнике включает в себя обширный спектр как личных, так и общественно значимых полей: пол, дата рождения, образование, политические взгляды, отношение к алкоголю и курению, женат/замужем ли участник, интересы, список любимых книг. Данные сохранялись в no-SQL базу данных MongoDB [4].
Одним из важных критериев вовлеченности в культурные процессы является чтение литературы. Участники культурных сообществ часто указывают у себя в личных данных те книги или авторов, которых они любят. Мы поставили задачу проанализировать книжные предпочтения участников с целью получения актуальных данных о культурных трендах современного общества. Анализируя социальную сеть, мы получаем следующие данные:
  1. Общую картину книжных предпочтений наиболее культурных представителей социальной сети,
  2. Детальные статистические срезы по различным категориям групп, с полом, возрастом и другими данным участников,
  3. Количественный анализ книжных предпочтений участников сообществ с разделением на произведения и авторов,
  4. Качественный анализ любимых книг участников, с возможностью последующего сравнения с культурными запросами и трендами государства и общества.

Собранные данные позволяют, например, оценить степень соответствия любимых книг участников групп мнению российских экспертов-книголюбов, которые составили список 100 лучших книг.

Рейтинг составлен по результатам голосования посетителей сайта 100bestbooks.ru. В голосовании участвуют произведения художественной литературы любой длины, любого жанра, написанные на любом языке в любой период времени. Система голосования позволяет голосовать как «за», так и «против». Для участия в голосовании не требуется регистрация. Голосование является бессрочным. На настоящий момент список имеет следующий вид:
1. Михаил Булгаков — Мастер и Маргарита
2. Лев Толстой — Война и мир
3. Федор Достоевский — Преступление и наказание
4. Федор Достоевский — Братья Карамазовы
5. Лев Толстой — Анна Каренина
6. Федор Достоевский — Идиот
7. Николай Гоголь — Мёртвые души
8. Александр Пушкин — Евгений Онегин
9. Михаил Булгаков — Собачье сердце
10. Михаил Лермонтов — Герой нашего времени
11. Антон Чехов — Рассказы
12. Виктор Гюго — Отверженные
13. Илья Ильф, Евгений Петров — Двенадцать стульев
14. Эрих Мария Ремарк — Три товарища
15. Александр Дюма — Граф Монте-Кристо
16. Иван Тургенев — Отцы и дети
17. Федор Достоевский — Бесы
18. Артур Конан Дойль — Приключения Шерлока Холмса
19. Николай Гоголь — Тарас Бульба
20. Александр Грибоедов — Горе от ума
Листинг.  1. – Рейтинг 100 лучших книг (полный и актуальный список смотрите на http://www.100bestbooks.ru/)

Учитывая различные и довольно разнообразные написания любимых книг у участников групп, рейтинг был разделен на два списка: список авторов произведений и список самих названий произведений. Такое разделение позволило получить детальные срезы.
Рассмотрим возрастной состав всех участников культурных групп (см. рис. 1). Можно наблюдать 2 выраженных пика в датах рождения участников: с 1987 по 1989 годы родилось более 8000 человек, а возраст большей части активных пользователей рассмотренных групп колеблется от 20 до 30 лет. Эти данные напрямую коррелируют со средним возрастом пользователей социальной сети.

Рис.  1. – Возрастной состав всех участников культурных групп

Причем возрастное распределение практически не зависит от тематики групп (исключением является группа «Кинотеатры», где при сохранении среднего возраста участников 20-30 лет, не наблюдается четкого пика, максимумы на гистограмме распределения годов рождения относительно равномерно ложатся в промежуток с 1985 по 1992 годы.).
Анализ книжных предпочтений участников культурных групп показал, что абсолютными лидерами по упоминаемости являются М. Булгаков и его роман «Мастер и Маргарита». В топе также находятся Достоевский, Стругацкие и Ремарк. Стоит отметить, что в списке любимых книг присутствуют различные жанры, а также классика и книги современных авторов. Например, среди современных авторов лидирует В. Пелевин и П. Коэльо (не представленные в списке 100bestbooks.ru), мистические/эзотерические авторы представлены К. Кастанедой и Р. Бахом (см. рис. 2).

Рис.  2. – Какие книги чаще всего указывают в поле «любимые книги» пользователи Вконтакте

Понимая предпочтения культурной аудитории, можно сравнить их со рейтингом 100bestbooks.ru. Такое сравнение покажет, каких именно авторов и произведения из рейтинга читают участники. Наблюдение показывает, что Достоевский и Толстой (в различных написаниях) встречаются чаще, чем Булгаков. В целом же первая десятка на 90% совпадает с десяткой рейтинга топ 100 лучших книг (см. рис. 3).

Рис.  3. – Книги каких авторов из рейтинга топ100 читают пользователи Вконтакте

Характерно выбивается из общего тренда группа «Байкеры», где первое место занимает современный писатель Сергей Лукьяненко (отсутствующий в рейтинге 100bestbooks.ru). Кроме того, следует отметить, что группа «Музыкальные группы» оказалась единственной, не выразившей положительного отношения к чтению: место в гистограмме любимых книг занимает пункт «нету», второе – «все» (очевидно, данный ответ не является искренним), а шестое место по популярности занимает ответ «не люблю читать».
Схожие литературные предпочтения наблюдаются у участников групп «Арткафе», «Антикафе» и «Бары», причем у данных групп не наблюдается схожести предпочтений с группой «Ночные клубы».

Рис.  4. – Сравнение нескольких групп по авторам

Рассмотрим теперь, какие произведения из рейтинга чаще всего встречаются у аудитории (см. рис. 4). Интересным наблюдением успех является находящийся на 45 месте рейтинга роман Г. Маркеса «Сто лет одиночества» – он занимает второе место в предпочтениях участников, опережая даже «Преступление и наказание» Ф. Достоевского.

Рис.  5. – Какие произведения читают пользователи Вконтакте

Также мы можем сравнивать различные группы попарно. На диаграмме «Книги каких авторов из рейтинга топ100 читают пользователи Вконтакте» сравниваются 2 группы сообщетсв: байкеров и посетителей культурных мероприятий. Интересное наблюдение: сообщества похожи по любви к Пушкину, Булгакову и Ремарку. Но сильно различаются в другом: у байкеров не популярны Достоевский, Толстой и Гоголь.

Рис.  6. – Сравнение сообществ байкеров и культурных мероприятий

Еще одно интересное сравнение: как в своих предпочтениях отличаются участники групп баров и кинотеатров? На рисунке видно, что Преступление и наказание не входит в число любимых книг посетителей кинотеатров. При этом в иностранной классике (Три товарища, Ромео и Джульетта) есть некоторое сходство.

Рис.  7. – Сравнение сообществ баров и кинотеатров по произведениям

Мы можем сравнить и разницу в возрастах: на рисунке видно, что в целом распределение дат рождения посетителей театров и ночных клубов схожее, присутствует лишь небольшое смещение в сторону 1980-1987 годов у театров. Это ожидаемо: в возрасте 30-35 лет люди больше интересуются живыми театральными постановками, и их в меньшей степени привлекают «спецэффекты» фильмов.

Рис.  8. – Распределение возрастов участников культурных сообществ Вконтакте: театры и ночные клубы

Рассмотрим базовые статистические выборки по сообществам театров (theatre), см. рис. 9.

Рис.  9. –  Статистика театров

Помимо стандартной информации, такой, как ожидаемое преобладание женщин в театральных сообществах, получены и данные об отношениях, вредных привычках (отношение к алкоголю, курению), книгах и интересах участников. В частности, анализируя половой состав участников групп театров, можно отметить крайне неравномерное распределение: доля женщин составляет более 70%. Это наблюдение объясняется понятным и стабильно высоким интересом к театральным постановкам у женщин. При этом картина статистик по сообществам кинотеатров (cinema) выглядит по-другому, (см. рис. 10):

Рис.  10. –  Статистика кинотеатров

Соотношение мужчин и женщин в этих группах примерно равное, также можно оценить и книги [6], которые они читают.
Итак, анализ данных из социальных сетей, в частности социальной сети «ВКонтакте», позволяет оперативно получать большой поток данных о предпочтениях и интересах аудиторий сообществ. Но самой большой ценностью является получение данных в реальном времени, что открывает возможность отслеживать динамику, анализировать культурные тренды, помогать в формировании государственной политики в области культурного развития общества, оперативно выявлять недостатки в культурно-нравственном воспитании, вести информационное противоборство за «умы» и ценности. Это, кстати, отражено в новой военной доктрине России.

Узнать больше и почитать еще такие статьи можно на нашем сайте http://graphgrail.com/ В комментариях пишите, какую аналитику вам было бы интересно почитать.

Литература
  1. Розин М.Д., Свечкарев В.П., Конторович С.Д., Литвинов С.В., Носко В.И. Проблемы мониторинга социальных сетей как площадки социальной коммуникации рунета // Научная мысль Кавказа. Междисциплинарные и специальные исследования, 2011, №2. С.65-77.
  2. Носко В.И. Система автоматизированного построения графа социальной сети // Инженерный вестник Дона, 2012, №4. URL: ivdon.ru/magazine/archive/n4p2y2012/1428
  3. Конторович С.Д., Литвинов С.В., Носко В.И. Методика мониторинга и моделирования структуры политически активного сегмента социальных сетей // Инженерный вестник Дона, 2011, №4 URL: ivdon.ru/ru/magazine/archive/n4y2011/642
  4. MongoDB is an open-source document database, and the leading NoSQL database. Written in C++. URL: mongodb.org
  5. Newman, Mark E.J. «The structure and function of complex networks.» SIAM review 45, no. 2 (2003): pp.167-256.
  6. Bird Steven. Natural Language Processing with Python. – O'Reilly Media Inc, 2009. – 482 с.