https://habr.com/ru/company/mailru/blog/462769/- Блог компании Mail.ru Group
- Python
- Data Mining
- Big Data
- Искусственный интеллект
Хабр, привет. Написал пост, который идёт строго (!) в закладки и передаётся коллегам. Он со списком блокнотов и библиотек ML и Data Science для разных отраслей промышленности. Все коды на Python, и размещены на GitHub. Они будут полезны как для расширения кругозора, так и для запуска своего интересного стартапа.
Отмечу, что если среди читателей есть желающие помочь, и добавить в любую из подотраслей подходящий проект, пожалуйста, свяжитесь со мной. Я их добавлю в список. Итак, давайте начнём изучение списка.
1. Недвижимость и питание
1.1. Питание
1.2. Рестораны
1.3. Недвижимость
2. Бухгалтерский учёт
2.1. Machine Learning
2.2. Аналитика
2.3. Текстовый анализ
2.4. Данные, парсинг и API
2.5. Исследования и статьи
- Understanding Accounting Analytics — статья, посвященная важности бухгалтерской аналитики.
- VLFeat — открытая и портативная библиотека алгоритмов компьютерного зрения, имеющая набор инструментов Matlab.
2.6. Веб-сайты
- Rutgers Raw — исследования в области цифрового бухгалтерского учета от Rutgers.
2.7. Курсы
3. Сельское хозяйство
3.1. Экономика
- Prices — прогноз цен на сельскохозяйственную продукцию 1;
- Prices 2 — прогноз цен на сельскохозяйственную продукцию 2;
- Yield — сельскохозяйственный анализ урожайности в Украине;
- Recovery — стратегическое использование земель в сельском хозяйстве с учетом восстановления экосистем;
- MPR — данные отчетности по ценам на сельхоз. продукцию от Министерства сельского хозяйства США.
3.2. Разработка
- Segmentation — сегментация сельскохозяйственных полей с использованием спутниковых снимков;
- Water Table — прогнозирование глубины грунтовых вод в сельскохозяйственных районах;
- Assistant — ноутбуки от виртуального Ассистента по сельскому хозяйству;
- Eco-evolutionary — эко-эволюционная динамика;
- Diseases — идентификация болезней сельскохозяйственных культур и вредителей с использованием фреймворка Deep Learning по изображениям;
- Irrigation and Pest Prediction — анализ орошения и прогноз вероятности появления вредителей.
4. Банковское дело и страхование
4.1. Потребительское финансирование
4.2. Управление и операции
- Credit Card — оценка CLV клиентов кредитной карты;
- Survival Analysis — анализ LTV клиентов;
- Next Transaction — модель глубокого обучения для прогнозирования суммы транзакции и дней до следующей транзакции;
- Credit Card Churn — предсказание оттока клиентов с кредитными картами;
- Bank of England Minutes — основные идеи предварительной обработки текста с использованием протоколов заседаний Комитета по денежно-кредитной политике Банка Англии;
- CEO — анализ корреляции между вознаграждениями генерального директора мужчины и генерального директора женщины.
4.3. Оценка
4.4. Мошеничество
4.5. Страхование и риски
4.6. Полезное
5. Биотехнологии и наука
5.1. Общие
- Programming — программирование для биологов на Python;
- Introduction DL — учебник по углубленному изучению геномики;
- Pose — оценка позы животных с использованием DL;
- Privacy — обмен клиническими данными, с сохранением конфиденциальности;
- Population Genetics — популяционный генетический вывод;
- Bioinformatics Course — материалы курса по вычислительной биологии и биоинформатике;
- Applied Stats — прикладная статистика для высокопроизводительной биологии;
- Scripts — скрипты Python для биологов;
- Molecular NN — мини-фреймворк для построения и обучения нейронных сетей для молекулярной биологии;
- Systems Biology Simulations — практическая системная биология при написании симуляторов с F # и Z3;
- Cell Movement — LSTM для прогнозирования биологического движения клеток;
- Deepchem — глубокое обучение для открытия новых лекарств, квантовой химии, материаловедения и биологии.
5.2. Последовательность
5.3. Хемоинформатика и открытие лекарств
- Novel Molecules — сверточная сеть, которая может изучать функции;
- Automating Chemical Design — создание новых молекул для эффективного исследования;
- GAN drug Discovery — метод, который сочетает в себе генеративные модели с обучением и подкреплением;
- RL — генерирующие соединения, предсказанные как активные;
- One-shot learning — использование машинного обучения в области поиска лекарств простым и удобным способами.
5.4. Геномные
5.5. Наука
- Plants Disease — приложение, которое выявляет болезни у растений с помощью модели глубокого обучения;
- Leaf Identification — идентификация растений через листья на основе их формы, цвета и текстуры;
- Crop Analysis — библиотека изображений для обнаружения и отслеживания будущего положения колосьев на растениях кукурузы;
- Seedlings — растительная рассада, классификация от Kaggle;
- Plant Stress — онтология, содержащая растительные стрессы;
- Animal Hierarchy — пакет для расчета иерархий доминирования животных;
- Animal Identification — глубокое обучение идентификации животных;
- Species — анализ больших данных различных видов животных;
- Animal Vocalisations — генеративная сеть для вокализации животных;
- Evolutionary — инструмент стратегий эволюции;
- Glaciers — учебный материал о ледниках.
6. Строительная техника
6.1. Строительство
6.2. Инженерия
6.3. Материаловедение
- Python Materials Genomics — код анализа материалов, используемый в устоявшемся проекте;
- Materials Mining — скрипты для моделирования и анализа материалов;
- Emmet — создание баз данных свойств материалов;
- Megnet — графовые сети как каркас ML для молекул и кристаллов;
- Atomate — рабочие процессы для вычислительного материаловедения;
- Bylaws Compliance — предсказание штрафов на собственность;
- Asphalt Binder — строительные материалы, свободная энергия и химический состав вяжущего асфальтового покрытия;
- Awesome Materials Informatics — кураторский список известных работ в области материаловедения.
7. Экономика
7.1. Общее
7.2. Машинное обучение
- EconML — автоматизированное обучение и анализ причинно-следственных связей;
- Auctions — оптимальные аукционы с использованием глубокого обучения.
7.3. Вычисления
8. Образование и исследования
8.1. Студенты
8.2. Школа
9. Чрезвычайные ситуации
9.1. Профилактика
9.2. Преступления
- Crime Classification — анализ времени серьезных нападений, неправильно классифицированных LAPD;
- Article Tagging — обработка естественного языка в новостной статье в Чикаго;
- Crime Analysis — нахождения правил ассоциации из пространственных данных для анализа преступности;
- Chicago Crimes — Изучение публичных данных о преступлениях в Чикаго в Python;
- Graph Analytics — Гаагские преступления;
- Crime Prediction — классификация, анализ и предсказание Преступности в городе Индор;
- Crime Prediction — разработаные прогностические модели уровня преступности;
- Crime Review — анализ данных обзора преступности.
- Crime Trends — анализ тенденций преступности и проблемных условий, побуждающих к этому;
- Crime Analytics — анализ данных о преступности в Сиэтле и Сан-Франциско.
9.3. Скорая помощь
- Ambulance Analysis — исследование изменения времени приезда скорой помощи в штате Виктория;
- Site Location — места расположения скорой помощи;
- Dispatching — применение теории игр и симуляции дискретных событий, для нахождения оптимального решения диспетчеризации скорой помощи;
- Ambulance Allocation — анализ временных рядов отправлений скорой помощи в городе Сан-Диего;
- Response Time — анализ улучшения времени отклика машины скорой помощи;
- Optimal Routing — проект по поиску оптимальной маршрутизации машин скорой помощи;
- Crash Analysis — прогнозирование вероятности аварий на данном сегменте в данный момент времени.
9.4. Управление стихийными бедствиями
10. Финансы
10.1. Торговля и инвестиции
10.2. Данные
- Datastream — Datastrem от Thomson Reuters, доступный через Python;
- AlphaVantage — API-обертка для упрощения процесса получения бесплатных финансовых данных;
- FSA — Проект по переводу финансовых данных SEC Edgar Filings в пользовательские модели анализа финансовой отчетности;
- TradeConnector — связи с поставщиками рыночных данных;
- Employee Count SEC Filings — точные значения количества сотрудников для компаний из заявок SEC;
- SEC Parsing — НЛП для поиска и извлечения конкретной информации из длинных неструктурированных документов;
- Open Edgar — OpenEDGAR;
- Rating Industries — истории от нескольких агентств, конвертированные в формат CSV.
11. Здравоохранение
11.1. Общее
12. Юстиция, закон и регламент
12.1. Инструменты
12.2. Политика и регулирование
12.3. Судебная практика
13. Производство
13.1. Общее
13.2. Техническое обслуживание
13.3. Ошибки
13.4. Качество
14. СМИ и издательство
14.1. Маркетинг
15. Физика
15.1. Общее
15.2. Машинное обучение
16. Правительство
16.1. Социальная политика
16.2. Благотворительность
- Census Data API — извлечение переменных из 5-летнего опроса американского сообщества;
- Donor Identification — проект машинного обучения, в котором нужно найти доноров для благотворительности;
- Charity Effectiveness — сбор онлайн-данных о благотворительных организациях, чтобы понять их эффективность.
16.3. Анализ выборов
16.4. Политика
- Congressional politics — палата представителей конгресса США;
- Politico — платформа для профилирования общественных деятелей в бразильской политике;
- Bots — инструменты и алгоритмы для анализа парагвайских твитов во время выборов;
- Gerrymander tests — множество метрик для количественной оценки Gerrymandering;
- Sentiment — анализ газет на предмет их политической убежденности с использованием субъективных настроений представителей партии;
- DL Politics — сравнение социалистической партия против народной в Бразилии;
- PAC Money — влияние денег PAC на политику США;
- Power Networks — создание сторожевого пса для индийских корпоративных и политических сетей;
- Elite — политическая элита в США;
- Debate Analysis — программа для анализа политических дебатов;
- Political Affiliation — прогноз политической принадлежности с использованием метаданных Twitter;
- Political Ads — расследование в Facebook политических объявлений и таргетинга;
- Political Identity — многоосная политическая модель политической идентичности;
- YT Politics — отображение политики на YouTube;
- Political Ideology — неконтролируемое изучение политической идеологии с помощью словесных векторных проекций.
17. Недвижимость, аренда и лизинг
17.1. Недвижимость
17.2. Аренда и лизинг
18. Коммунальные услуги
18.1. Электроэнергия
- Electricity Price — сравнение цен на электроэнергию в Сингапуре;
- Electricity-Coal Correlation — определение корреляции между государственными тарифами на электроэнергию и выработкой угля за последнее десятилетие;
- Electricity Capacity — анализ Los Angeles Times анализа дорогостоющей электроэнергии в Калифорнии;
- Electricity Systems — оптимальная система электроэнергии для европейских стран;
- Load Disaggregation — интеллектуальная разметка нагрузки по скрытым марковским моделям;
- Price Forecasting — прогнозирование цен на электроэнергию на сутки вперед в немецкой зоне торгов с глубокими нейронными сетями;
- Carbon Index — расчет интенсивности CO₂ и электричества в регионах страны, НКРЭ с 2001 года;
- Demand Forecasting — прогнозирование спроса на электроэнергию в Остине;
- Electricity Consumption — оценка потребления электроэнергии из обследований домашних хозяйств;
- Electricity French Distribution — анализ данных по электроэнергии, предоставленных французской распределительной сетью (RTE);
- Renewable Power Plants — временные ряды совокупной установленной мощности;
- Wind Farm Flow — хранилище моделей потоков ветровой электростанции, подключенных к FUSED-Wind;
- Power Plant — набор данных содержит 9568 точек данных, собранных электростанцией с комбинированным циклом за 6 лет (2006-2011 гг.).
18.2. Уголь, нефть и газ
18.3. Загрязнение воды
- Safe Water — предсказание нарушения качества питьевой воды, основанные на здоровье людей в США;
- Hydrology Data — набор удобных функций для изучения данных о воде в Python;
- Water Observatory — мониторинг уровня воды в озерах и водохранилищах с использованием спутниковых изображений;
- Water Pipelines — использование машинного обучения для поиска водопроводов на аэрофотоснимках;
- Water Modelling — австралийская система моделирования сообществ по оценке водных ресурсов;
- Drought Restrictions — анализ использования воды в Los Angeles;
- Flood Prediction — применение LSTM к данным об уровне воды в реке;
- Sewage Overflow — анализ санитарных переливов (SSO);
- Air Quality Prediction — прогноз качества воздуха (aq) в Пекине и Лондоне в течение следующих 48 часов.
18.4. Логистика
19. Оптовая и розничная торговля
19.1. Оптовая торговля
19.2. Розничная торговля
На этом наш пост о применение ML и DS в промышленности подошел к концу. Надеюсь вы узнали для себя что-нибудь новое. Если у вас есть то, чем вы можете поделиться сами — пишите в комментариях.
Больше информации о машинном обучении и Data Science в моём аккаунте на
Хабре и в телеграм-канале
Нейрон, подписывайтесь, чтобы не пропустить будущих статей.
Всем знаний!