news.shamcode.ru | Анонс Moscow Spark #3

Анонс Moscow Spark #3

среда, 1 ноября 2017 г. в 03:12:02

https://habrahabr.ru/company/rambler-co/blog/341394/

Машинное обучение
Scala
Python
Big Data
Блог компании Rambler&Co

Всем привет! Мы долго готовились, искали крутых докладчиков и, наконец, анонсируем Moscow Spark #3, который состоится 16 ноября на Мансарде Rambler&Co! Предыдущий митап собрал почти 250 человек, и мы рассчитываем, что сможем собрать не меньше в этот раз. Ключевой темой этого мероприятия станет Spark Streaming, актуальная и очень интересная часть фреймворка Apache Spark.

1. Spark Streaming и онлайн сегментация аудитории – Артем Выборнов, ведущий разработчик отдела аудиторного сегментирования Rambler&Co

Основная цель нашей команды — сегментация аудитории. Для минимизации времени между получением информации о событии до его учёта в открутке рекламы был построен микробатчевый pipeline по обработке данных. Из доклада вы узнаете об опыте реализации онлайн сегментации с помощью Spark Streaming. Поймёте, как обеспечить честный exactly once и почему мы не стали этого делать. Узнаете какие задачи однозначно не стоит решать с помощью Spark Streaming, а какие, наоборот, идеально для него подходят.

2. Сбор и обработка логов безопасности на Spark Streaming в режиме 24/7 – Андрей Титов, тимлид отдела разработки платформ анализа данных ГК Инфосекьюрити

В докладе будет рассмотрено применение Spark Streaming 1.6.3 в качестве основного движка для сбора и анализа логов в команде Security Operations банка Открытие. Используя логи из различных источников, мы выявляем инциденты ИБ и предотвращаем атаки на инфраструктуру банка. Мы расскажем о том, как мы построили ETL процесс, где и как мы храним логи, и какие базы используем вместе с платформой Spark. А также о проблемах, с которыми мы столкнулись в проекте.

3. GeoTrellis, Распределенный процессинг геопривязанных изображений на Spark – Григорий Помадчин, core engineer GeoTrellis в Azavea

Процессинг ГИС данных на Spark, предобработка растровых данных и последующее использование данных для любой алгебры или аналитики. Проблемы хранения таких данных и эффективного их использования. Будет рассмотрено как и зачем делается предобработка, и какие последствия использования препроцессинга и постпроцессинга существуют для построения real-time сервисов.

4. Построение рекомендательной системы на базе Apache Spark – Никита Учителев, руководитель отдела обработки данных и аналитики YouDo

В своем докладе я расскажу о том, как в компании YouDo организованы потоки данных, как с их помощью решаются различные задачи предиктивной аналитики от автоматизированного поиска мошенников до формирования персональных рекомендаций для пользователей, какие технологии для этого используются и в чем сильные и слабые стороны применения Apache Spark для этих задач. Постараюсь уделить внимание, в первую очередь, техническим решениям в части интеграции между собой различных сервисов, а также архитектуре подобного рода проектов.

Мероприятие бесплатное, а регистрация обязательна – rambler-co-e-org.timepad.ru/event/604814
С нас пицца и чай!

Начало в 19.00
Место: Варшавское шоссе, д. 9, стр. 1, подъезд №5. Мансарда Rambler&Co

Обязательно зарегистрируйтесь и возьмите с собой паспорт, чтобы вас пропустила охрана бизнес-центра!

Приходите, будет интересно!