Распространение сферического коня в вакууме по территории РФ
- вторник, 31 марта 2020 г. в 00:26:23
Привет от ODS. Мы откликнулись на идею tutu.ru поработать с их датасетом пассажиропотока РФ. И если в посте Milfgard огромная таблица выводов и научпоп, то мы хотим рассказать что под капотом.
Что, опять очередной пост про COVID-19? Да, но нет. Нам это было интересно именно с точки зрения математических методов и работы с интересным набором данных. Прежде, чем вы увидите под катом красивые картинки и графики, я обязан сказать несколько вещей:
Под катом — результаты нашего марш-броска на датасет.
Так как рабочих рук у нас было не слишком много, мы старались разделить направления работы, покрывая как можно больше возможных задач.
Лучше всего иллюстрирует датасет визуализация Вадима Сафронова (safronov).
Самое интересное, что мы нашли:
Вывод: у нас сильно централизованная транспортная система и пассажиропоток. Это позволяет болезни быстрее распространятся при условии инфицирования транспортных хабов с одной стороны, но с другой — позволяет быстро пресечь распространение болезни при условии перекрытия ключевых направлений.
TODO: вся работа шла с пассажиропотоком за один месяц, что не позволяет говорить о какой-либо сезонности, хотя она определенно должна присутствовать. Было бы здорово добавить примерные коэффициенты сезонности к данным, которые можно вытащить из статистики рынка путешествий.
Мы решили использовать практически самое простое семейство эпидемиологических моделей: SIR. Но их конечно сильно больше. С помощью таких моделей можно прогнозировать, сколько людей заразятся какой-то болезнью в закрытой популяции, сколько восстановятся после нее и как быстро.
Для удобства восприятия результатов мы ввели для симуляции два основных параметра (изменяя которые смотрели на результаты):
contact_rate
можно рассматривать как скорость распространения болезни. Больше значение параметра -> быстрее распространяется болезнь. recovery_rate
— параметр, отвечающий за скорость выздоровления.Для каждой пары "город отправления А" — "город прибытия Б" мы сделали следующий цикл:
Так мы делаем на каждый день для каждого из 1000 городов нашего датасета. Повторяем в течении полугода.
Данные по начальному числу зараженных брали на 24 марта 2020ого года.
И вот настал тот самый момент, когда всплывают все ЕСЛИ, которые нам пришлось ввести.
TODO: мы могли бы учитывать и передачу вируса внутри транспортного средства. Т.e. зная пассажиропоток из А в Б, мы можем посчитать, сколько требуется самолетов/поездов и для каждого транспортного средства произвести свой запуск модели внутри этого средства. Село 2 больных и 98 здоровых -> вышло 10 больных и 90 здоровых. Кроме того, задача оценки кросс-заражения между пассажирами идентична той, которую поручено исполнить операторами связи.
Легенда:
Мы провели два основных кейса на полгода вперед.
TODO: было бы интересно сделать симуляцию с возможностью закрыть часть маршрутов в любое время.
Все полеты происходят как обычно, в жизни людей ничего не меняется.
contact_rate
= 0.27
recovery_rate
= 0.05
Вывод: огромное число заболевших, болезнь не удается изолировать, страдают даже отдаленные от центральной части РФ города. Наблюдается восстановление в небольших городах к концу симуляции.
Во втором кейсе мы ввели социальную изоляция (понизили contact_rate), весь пассажиропоток снизили до 10% от обычных значений.
contact_rate
= 0.21
recovery_rate
= 0.05
Вывод: социальная изоляция вместе с ограничением перемещений работает, как уже было сказано огромное число раз. Она позволяет снизить пик и растянуть заболевание на более длительный срок, тем самым не перегружая медицинскую систему. Видно, что удаленные от центральной части РФ регионы в этом случае страдают меньше. Также, учитывая высокую централизацию транспортных потоков, жители крупных городов несут бОльшую ответственность и подвергаются бОльшей опасности. Поэтому кажутся правильными совсем недавние меры, принятые в Москве.
Пожалуйста, соблюдайте рекомендации ВОЗ, чаще мойте руки и следите за собой. Снизьте число социальных контактов и путешествий.
Также мы хотели бы обратиться к операторам связи и крупным компаниям на транспортном рынке с просьбой делиться анонимными открытыми данными. Часто это может привести к приятному сотрудничеству и интересным исследованиям.
Было сделано распределенной командой ODS из Берлина, Санкт-Петербурга, Лиссабона и Москвы в канале #ml4sg. Отдельное спасибо всем участникам проекта и всем заинтересовавшимся.
Все данные и код есть в репозитории.
Берегите себя. Ваше ODS.