python

DataScience Digest — 10.06.21

  • суббота, 12 июня 2021 г. в 00:55:56
https://habr.com/ru/post/562156/
  • Python
  • Алгоритмы
  • Big Data
  • Машинное обучение
  • Искусственный интеллект


Приветствую всех!

На протяжении долгого времени я не публиковал свежих выпусков Data Science Digest, а сейчас пришло время его возродить. Выходить дайджест будет еженедельно по четвергам. 

Встречайте свежий выпуск дайджеста полезных материалов из мира Data Science & Machine Learning и не забывайте подписываться на наш Telegram-канал.


Статьи

Fraud Detection: Using Relational Graph Learning to Detect Collusion — В этой статье команда Uber Engineering демонстрирует, как можно использовать сверточные сети на реляционных графах (RGCN) для обнаружения мошенничества.

Airflow and Ray: A Data Science Story — Из этой статьи вы узнаете о Ray для Apache Airflow, который позволяет пользователям преобразовывать Airflow DAG в масштабируемые ML пайплайны.

PyCaret 101 — For Beginners — Вводная статья о PyCaret, от установки до анализа результатов работы ML пайплайна.

High-Performance Speech Recognition with No Supervision at All В этой статье команда Facebook AI представляет wav2vec Unsupervised (wav2vec-U), кардинально новую автоматизированную систему распознавания речи. 

Introducing Orbit, An Open Source Package for Time Series Inference and Forecasting — Вводная статья об Orbit (Object-ORiented BayesIan Time Series), новом интерфейсе, разработанном командой Uber Engineering.

Lessons on ML Platforms — From Netflix, DoorDash, Spotify, and More — Здесь вы найдете решения проблем, с которыми сталкиваются инженеры при разработке ML платформ. Лучшие практики, инструменты и подходы к менеджменту.

Easy MLOps with PyCaret + MLflow — Небольшой туториал об использовании PyCaret  в связке с MLflow для MLOps и более эффективных ML экспериментов.

R vs Python: The Data Science Language Debate — Обзор двух наиболее популярных языков, используемых в Data Science. Взгляните на извечный спор под другим углом.

Data Scientist vs Machine Learning Engineer Skills. Here’s the Difference — В чем разница между Дата Сайентистом и ML инженером? Возможно, вы найдете устраивающий ответ в этой статье.

AutoNLP: Automatic Text Classification with SOTA Models — Обзор и небольшой туториал по AutoML, сервиса для автоматизации МЛ процессов для NLP моделей.

Научные статьи

Animating Pictures with Eulerian Motion Fields — В этой научной статье описывается полностью автоматический метод преобразования неподвижных изображений в реалистичное анимированное зацикленное видео. 

DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort — DatasetGAN — автоматический подход к созданию массивных датасетов высококачественных семантически сегментированных изображений. Превосходит аналогичные методы по точности и эффективности.

Long Text Generation by Modeling Sentence-Level and Discourse-Level Coherence — В этой статье авторы предлагают новую модель генерации связного текста. Тесты показывают, что она генерирует более логичные тексты, чем конкуренты.

CogView: Mastering Text-to-Image Generation via Transformers — CogView — трансформер с 4 миллиардами параметров и токенизатором VQ-VAE, который, по словам авторов, превосходит другие GAN модели.

GAN Prior Embedded Network for Blind Face Restoration in the Wild — В этой статье описывается, как можно решить проблему восстановления “слепого лица” по сильно ухудшенным изображениям лиц, собранных в естественных условиях.

Image Cropping on Twitter: Fairness Metrics, their Limitations, and the Importance of Representation, Design, and Agency В этой статье затрагивается тема непредвзятости МЛ алгоритмов в Twitter. В частности, исследуется работа системы автоматической обрезки изображений на датасетах с людьми разных расс.

Видео

Full Stack Deep Learning - UC Berkeley - 2021 — Сборник лекций по глубокому обучению от профессоров Калифорнийского университета в Беркли. Всего 22 лекции.

Проекты

Know Your Data Коллекция 70+ TensorFlow датасетов с возможностью их просмотра.

Инструменты

Albumentations — CV библиотека для быстрого и гибкого аугментирования изображений, которая помогает повысить производительность глубоких сверточных нейронных сетей. Инструмент может использоваться для различных задач, включая классификацию, сегментацию и обнаружение объектов.


Спасибо, что дочитали этот выпуск. Надеюсь, каждый нашел для себя что-то полезное. Буду благодарен за любые предложения для следующего дайджеста.

Присоединяйтесь к Telegram-каналу дайджеста и его страницам в соцсетях: Medium, Facebook, Twitter, LinkedIn, а также подписывайтесь на нас в substack.