python

Аналитик на прокачку

  • суббота, 26 июня 2021 г. в 00:38:25
https://habr.com/ru/company/X5RetailGroup/blog/564664/
  • Блог компании X5 Retail Group
  • Python
  • Big Data
  • Карьера в IT-индустрии
  • Data Engineering


Ни для кого не секрет, что область Data Science сегодня горяча, работы полно, рук не хватает, а 300 кк/сек можно начать зарабатывать даже раньше, чем конкуренты пройдут курсы по саморазвитию и созданию своего бизнеса от обладателей селфи со спорткарами. Мы в Х5 Group тоже активно помогаем молодым специалистам стать зрелыми мастерами, и можем заверить, что, пусть даже 300 кк/сек это утопия, но 300 к/мес – это вполне себе реальность.

Типовой кейс выглядит так: к нам приходит молодой стажер, получает ментора из числа старших сотрудников, проходит обучающие курсы в нашей Цифровой Академии Х5, наращивает компетенции, и в 3-4 месяца становится младшим аналитиком, а на самом деле Менеджером по Анализу Больших Данных, так эта позиция называется в штатном расписании. А кое-кто и сразу Старшим Менеджером, если затащил, заделиверил и продемонстрировал.

Школа аналитиков у нас проходит второй раз, первый запуск прошел для внутренних сотрудников Х5, второй стартовал в октябре 2020 онлайн для всех желающих и прошедших вступительные испытания. Выпуск состоялся 17 июня, стажировки и соглашения о найме, все присутствовало.

Расскажем немного о содержании Школы. Она базируется на двух мощных курсах, составляющих ее костяк: Программирование на Python и Машинное Обучение. Первый представляет собой 14 лекций, начиная от основ, нативных структур данных и базового синтаксиса через итераторы, замыкания и исключения к модулям, управлению атрибутами и библиотекам Data Science. Приятным бонусом для студентов пилотного запуска оказались занятия по асинхронному программированию от Сергея Кабанова, которые изначально даже не планировались. 

Второй курс – классическое машинное обучение: регрессия и классификация, бустинги и библиотеки для них, обучение без учителя и временные ряды, всего 14 лекций и 14 семинаров, домашки, Kaggle in-class. 

Вокруг двух базовых курсов встроены модули по математике, статистике и АВ тестам, SQL и базам данных, Bigdata и Devops. Все модули примерно одного объема – по 20-28 часов занятий в классе плюс домашки. В сумме выпускник Школы – это практически готовый аналитик, владеющий инструментарием ежедневной работы, стеком технологий и знающий принципы работы систем хранения и обработки больших данных. Ему нужно лишь поработать 3-4 месяца стажером, чтобы понять как оно в реальности, или же он сходу может начинать работать младшим аналитиком, если имеет некоторый рабочий опыт, полученный до поступления в Школу, или параллельно учебе в ней.

Понятно, что контент Школы доступен стажерам, и они восполняют нехватку знаний не только напрямую на рабочем месте, но и из методических материалов, разработанных в рамках Школы. Рассмотрим тот спектр навыков и знаний, которым в нашем понимании обладает младший аналитик, или, более звучно, Менеджер по Анализу Больших Данных.

Он отображен на этой прекрасной ретро-картинке прямиком из Excel и говорит, что младший аналитик должен уметь кодить на Питоне (внезапно), писать базовые запросы на SQL (:you-don’t-say:), знать базовую статистику на уровне p-value, уметь трансформировать цифры в инсайты, уметь в фитпредикт и знать базовый стек компьютерных технологий: Git, Linux, bash, можно Docker, Kubernetes и далее и далее, тут в какой-то момент произойдет фазовый переход в мидла, и далее до бесконечности. За подробностями сюда.

 По SQL мы спрашиваем на уровне джойнов, групбаев и оконных функций, иногда можем попросить рассказать про индексы, и для чего они предназначены. Еще мы просим решить на Python задачку уровня Leetcode easy, чтобы понять, насколько уверенно кандидат будет справляться с каждодневными задачками, знает ли он про сложность алгоритмов, не забывает ли про краевые случаи, да и вообще пишет ли рабочий код.

 Мы хотим, чтобы кандидат понимал машинное обучение на уровне базовых алгоритмов обучения с учителем и без оного, мог рассказать про валидацию и инжиниринг признаков, знал основные типы задач и метрики для них. Все в объеме открытого курса от ODS.

Статистика лежит в сердце наших пайплайнов по АВ тестированию, которое используем для оценки экономического эффекта от внедрения той или иной инициативы, потому знание этой области обязательно в объеме метода максимального правдоподобия, максимума апостериорной вероятности, методов проверки статистических гипотез, собственно АВ тестирования, и статистических методов оценки процессов.

Важный навык проведения аналитических исследований не так просто оценить на собеседовании, тут мы судим скорее по словам соискателя, по его pet-projects, по тому, как он аргументирует свои ответы по другим секциям интервью.

Последнее требование, это базовая компьютерная грамотность, куда мы включаем навыки работы с Git, bash, базовое понимание тестирования программ, понимание процессы continuous integration.

Нам кажется, что, добрав за время стажировки теоретических знаний по темам Школы аналитиков, и поработав с реальными задачами ad-hoc анализа, продуктовой аналитики, толковый стажер с легкостью может по окончании стажировки претендовать на позицию младшего аналитика, уверенно выполнять задачи и приносить пользу компании, что мы и отражаем в его зарплатной ведомости.

Мы в Х5 проводим два вида стажировки: круглогодичную и летнюю. На первую стараемся набирать выпускников Школы аналитиков данных Х5, зная гарантированное наличие у них интересующих нас знаний и навыков, но берем и студентов вузов, если они могут совмещать учебу и работу по 20-30 часов в неделю.

А вот вторая начинается с 1 июля, длится 2 месяца и дарит удивительную возможность поработать 20-40 часов в неделю вместо летних жарких развлечений над продуктами и проектами нашей компании. Приведем некоторые примеры.

Продукт ценообразования — это расчёт регулярных ценников в сети Пятерочки из 17 тыс магазинов с целью достижения заданных бизнес метрик. В продукте используются графовые модели, бустинги, АБ-тесты, модели исследования операций, аппроксимация кривых и многое другое.

Есть в Х5 планирование промо акций - оптимизация набора товаров, которые ставятся в промо. При оптимизации учитываются эмбеддинги товаров (привет matrixfactorization model) для исключения товаров заменителей, прогноз продаж и учет сложных механик (купи 2 получи 1 бесплатно) + оптимизация цены промо. Можно с уверенностью сказать, что продукт собирает в себя все актуальные наработки Биг Дата в направлении коммерции. Особое внимание мы уделяем метрикам продукта и качественной документации.

Есть и направление работы с внешними организациями, которые хотят принимать решения с использованием данных Х5. Например, поставщики продуктов могут получать сложные отчеты и, например, корректировать линейку своих продуктов или корректировать логистику и производство. Рекламные агентства — проводить кампании, целясь в желаемый сегмент клиентов Х5, а также оценивать их результаты. Финансовым организациям интересно улучшить собственные модели скоринга с помощью наших моделей или найти похожих по поведению клиентов.

Как правило, в каждой из команд свои требования к аналитикам, но главная цель всех продуктов, это делать законченные решения в интересах бизнес-единиц, поэтому у нас есть и SQL-разработка, и статистика, и машинное обучение, и различные инженерные задачи.

Обычно стажеры занимаются АВ тестированием, продуктовой аналитикой, написанием вспомогательного кода, работают с данными, строят витрины и дашборды.