https://habr.com/ru/company/skyeng/blog/489010/- Блог компании Skyeng
- Python
- Открытые данные
- Машинное обучение
Перед Новым годом команда Михаила Sverdlove Свердлова объявила, что готова делиться обезличенными данными уроков Skyeng с внешними исследователями и стартапами. Вскоре после праздников мы поговорили с Мишей, о каких именно данных идет речь, что уже с ними делают и почему получить свой дата-сет можно, только написав ему на почту.
— Если вы делитесь данными, то почему бы просто не залить датасет куда-нибудь?
Самый большой корпус английского языка в России, по-моему, составляет 10 тысяч позиций. К концу января в нашей школе глобально прошло свыше 9,1 миллионов уроков — насколько знаю, большим набором именно по онлайн-образованию и урокам один-на-один обладают только китайские школы.
Мы знаем, что происходило и как менялись действия учителя и ученика за все уроки, которые мы провели, у нас есть трек истории всех упражнений по ним. Это порядка 120 метрик по учителям, а также около 300 параметров по детям двух возрастных групп (4-11 и 11-18 лет) и взрослым разных возрастов, городов, статусов (например, студентам) и так далее. И это точно не все параметры, которые мы можем собирать, — кажется можно использовать в 2-3 раза больше. На таком объеме история
«вот ссылка на датасет, покрутите, кто хочет» едва ли будет работать.
— Кому вы готовы выгружать наборы данных по запросу?
Первый тип вероятных партнеров – это ученые и организации, которые занимаются фундаментальными исследованиями, пишут статьи и так далее. Обычно им нужна база для исследований — мы готовы ею стать.
Сейчас, например, мы обсуждаем совместные нейрофизиологические исследования с одним из крупнейших вузов в стране, а также партнерами из Кембриджа и Аризоны.
Для начала хотим взять текущий контент, разметить его определенным образом, — и нейрофизиологи запустят тест на людей, которые придут к ним и будут в таких “шапках-ушанках” обучаться. Мы поймем, как работают материалы на целевой аудитории, какие есть психологические и неврологические особенности, а потом мы сможем обучить модель на ретроданных, чтобы изменять контент и форматы, делая их максимально удобными для ученика.
Параллельно эти же метрики фокусировки и усвоения материала мы сейчас анализируем с одним из стартапов по аудио- и видеопотокам.
— Какую выгоду получит каждая из сторон?
1. Мы изначально делаем все бесплатно друг для друга.
2. Результаты исследования принадлежат обеим сторонам — неважно, стал эксперимент успешным или провалился, мы можем писать совместные статьи, быть референсной базой и т.д.
3. Если результат исследования положительный, партнер может коммерциализировать его, а мы — можем использовать для своих нужд.
Мы также готовы показывать заказчикам партнера конечные результаты применительно к сфере образования. Но сразу обсуждаем вопрос неконкуренции — это базовое условие. Например, с нейрофизиологами сразу оговорили, что если дело дойдет до продукта, год-два они не должны продавать его нашим прямым конкурентам. Грубо, китайским военным продать можно сразу, а другой онлайн-школе английского — когда-нибудь потом. Это пока не отточенная юристами формулировка, но выглядит приблизительно так.
— Ок, а если к вам придет коммерческий проект?
Компании, которые внедряют ML-инструментарий в образование или даже другие сферы, нам тоже интересны. Это могут быть инструменты для персонализации образовательных траекторий, синтеза или анализа речи, мотивации в процессе обучения, психологии и так далее.
Мы с такими уже работаем — например, определяем ряд пилотов, чтобы матчить преподавателя и ученика.
Поэтому стартапы, которые работают над ускорением процесса получения новых знаний, механиками и методиками быстрого длинного и глубокого запоминания, заняты рекомендательными системами и так далее — тоже приходите. Опять же, нужно будет обсудить вопрос неконкуренции.
— Ок, а как все это выглядит для партнера?
Пишите мне на
data@skyeng.ru: расскажите про свои компетенции и желаемые тематики, обсудим это. Когда обо всем договорились, подписываем договор и гоу творить историю в образовании.
На нашей стороне будет несколько ребят — проджектов, которые вас подхватят и помогут своевременно получать все выгрузки, запускать эксперименты и так далее. Партнер передает нам алгоритмы и/или логику, мы запускаем механический анализ и отдаем партнеру уже агрегированный текстовый файл с описанием. Собственно данные — изображения, видео, аудио партнеру не передаются.
А в остальном… Просто пишите, не стесняйтесь, — или задавайте вопросы в комментариях, постараюсь ответить по-максимуму.