python

Делимся самым большим в РФ пластом данных по онлайн-обучению с проектами по лингвистике, персонализа

  • четверг, 20 февраля 2020 г. в 00:21:08
https://habr.com/ru/company/skyeng/blog/489010/
  • Блог компании Skyeng
  • Python
  • Открытые данные
  • Машинное обучение


Перед Новым годом команда Михаила Sverdlove Свердлова объявила, что готова делиться обезличенными данными уроков Skyeng с внешними исследователями и стартапами. Вскоре после праздников мы поговорили с Мишей, о каких именно данных идет речь, что уже с ними делают и почему получить свой дата-сет можно, только написав ему на почту.



— Если вы делитесь данными, то почему бы просто не залить датасет куда-нибудь?
Самый большой корпус английского языка в России, по-моему, составляет 10 тысяч позиций. К концу января в нашей школе глобально прошло свыше 9,1 миллионов уроков — насколько знаю, большим набором именно по онлайн-образованию и урокам один-на-один обладают только китайские школы.

Мы знаем, что происходило и как менялись действия учителя и ученика за все уроки, которые мы провели, у нас есть трек истории всех упражнений по ним. Это порядка 120 метрик по учителям, а также около 300 параметров по детям двух возрастных групп (4-11 и 11-18 лет) и взрослым разных возрастов, городов, статусов (например, студентам) и так далее. И это точно не все параметры, которые мы можем собирать, — кажется можно использовать в 2-3 раза больше. На таком объеме история «вот ссылка на датасет, покрутите, кто хочет» едва ли будет работать.

— Кому вы готовы выгружать наборы данных по запросу?
Первый тип вероятных партнеров – это ученые и организации, которые занимаются фундаментальными исследованиями, пишут статьи и так далее. Обычно им нужна база для исследований — мы готовы ею стать.

Сейчас, например, мы обсуждаем совместные нейрофизиологические исследования с одним из крупнейших вузов в стране, а также партнерами из Кембриджа и Аризоны.


Для начала хотим взять текущий контент, разметить его определенным образом, — и нейрофизиологи запустят тест на людей, которые придут к ним и будут в таких “шапках-ушанках” обучаться. Мы поймем, как работают материалы на целевой аудитории, какие есть психологические и неврологические особенности, а потом мы сможем обучить модель на ретроданных, чтобы изменять контент и форматы, делая их максимально удобными для ученика.

Параллельно эти же метрики фокусировки и усвоения материала мы сейчас анализируем с одним из стартапов по аудио- и видеопотокам.

— Какую выгоду получит каждая из сторон?

1. Мы изначально делаем все бесплатно друг для друга.

2. Результаты исследования принадлежат обеим сторонам — неважно, стал эксперимент успешным или провалился, мы можем писать совместные статьи, быть референсной базой и т.д.

3. Если результат исследования положительный, партнер может коммерциализировать его, а мы — можем использовать для своих нужд.


Мы также готовы показывать заказчикам партнера конечные результаты применительно к сфере образования. Но сразу обсуждаем вопрос неконкуренции — это базовое условие. Например, с нейрофизиологами сразу оговорили, что если дело дойдет до продукта, год-два они не должны продавать его нашим прямым конкурентам. Грубо, китайским военным продать можно сразу, а другой онлайн-школе английского — когда-нибудь потом. Это пока не отточенная юристами формулировка, но выглядит приблизительно так.

— Ок, а если к вам придет коммерческий проект?
Компании, которые внедряют ML-инструментарий в образование или даже другие сферы, нам тоже интересны. Это могут быть инструменты для персонализации образовательных траекторий, синтеза или анализа речи, мотивации в процессе обучения, психологии и так далее.

Мы с такими уже работаем — например, определяем ряд пилотов, чтобы матчить преподавателя и ученика.


Поэтому стартапы, которые работают над ускорением процесса получения новых знаний, механиками и методиками быстрого длинного и глубокого запоминания, заняты рекомендательными системами и так далее — тоже приходите. Опять же, нужно будет обсудить вопрос неконкуренции.

— Ок, а как все это выглядит для партнера?
Пишите мне на data@skyeng.ru: расскажите про свои компетенции и желаемые тематики, обсудим это. Когда обо всем договорились, подписываем договор и гоу творить историю в образовании.

На нашей стороне будет несколько ребят — проджектов, которые вас подхватят и помогут своевременно получать все выгрузки, запускать эксперименты и так далее. Партнер передает нам алгоритмы и/или логику, мы запускаем механический анализ и отдаем партнеру уже агрегированный текстовый файл с описанием. Собственно данные — изображения, видео, аудио партнеру не передаются.

А в остальном… Просто пишите, не стесняйтесь, — или задавайте вопросы в комментариях, постараюсь ответить по-максимуму.