https://habrahabr.ru/company/rambler-co/blog/341394/- Машинное обучение
- Scala
- Python
- Big Data
- Блог компании Rambler&Co
Всем привет! Мы долго готовились, искали крутых докладчиков и, наконец, анонсируем Moscow Spark #3, который состоится 16 ноября на Мансарде Rambler&Co! Предыдущий митап собрал почти 250 человек, и мы рассчитываем, что сможем собрать не меньше в этот раз. Ключевой темой этого мероприятия станет Spark Streaming, актуальная и очень интересная часть фреймворка Apache Spark.
1.
Spark Streaming и онлайн сегментация аудитории – Артем Выборнов, ведущий разработчик отдела аудиторного сегментирования Rambler&Co
Основная цель нашей команды — сегментация аудитории. Для минимизации времени между получением информации о событии до его учёта в открутке рекламы был построен микробатчевый pipeline по обработке данных. Из доклада вы узнаете об опыте реализации онлайн сегментации с помощью Spark Streaming. Поймёте, как обеспечить честный exactly once и почему мы не стали этого делать. Узнаете какие задачи однозначно не стоит решать с помощью Spark Streaming, а какие, наоборот, идеально для него подходят.
2.
Сбор и обработка логов безопасности на Spark Streaming в режиме 24/7 – Андрей Титов, тимлид отдела разработки платформ анализа данных ГК Инфосекьюрити
В докладе будет рассмотрено применение Spark Streaming 1.6.3 в качестве основного движка для сбора и анализа логов в команде Security Operations банка Открытие. Используя логи из различных источников, мы выявляем инциденты ИБ и предотвращаем атаки на инфраструктуру банка. Мы расскажем о том, как мы построили ETL процесс, где и как мы храним логи, и какие базы используем вместе с платформой Spark. А также о проблемах, с которыми мы столкнулись в проекте.
3.
GeoTrellis, Распределенный процессинг геопривязанных изображений на Spark – Григорий Помадчин, core engineer GeoTrellis в Azavea
Процессинг ГИС данных на Spark, предобработка растровых данных и последующее использование данных для любой алгебры или аналитики. Проблемы хранения таких данных и эффективного их использования. Будет рассмотрено как и зачем делается предобработка, и какие последствия использования препроцессинга и постпроцессинга существуют для построения real-time сервисов.
4.
Построение рекомендательной системы на базе Apache Spark – Никита Учителев, руководитель отдела обработки данных и аналитики YouDo
В своем докладе я расскажу о том, как в компании YouDo организованы потоки данных, как с их помощью решаются различные задачи предиктивной аналитики от автоматизированного поиска мошенников до формирования персональных рекомендаций для пользователей, какие технологии для этого используются и в чем сильные и слабые стороны применения Apache Spark для этих задач. Постараюсь уделить внимание, в первую очередь, техническим решениям в части интеграции между собой различных сервисов, а также архитектуре подобного рода проектов.
Мероприятие бесплатное, а регистрация обязательна –
rambler-co-e-org.timepad.ru/event/604814
С нас пицца и чай!
Начало в 19.00
Место: Варшавское шоссе, д. 9, стр. 1, подъезд №5. Мансарда Rambler&Co
Обязательно зарегистрируйтесь и возьмите с собой паспорт, чтобы вас пропустила охрана бизнес-центра!
Приходите, будет интересно!