Машинное обучение (Machine Learning)

Я только приступаю и пытаюсь разобраться что к чему.

Наверное, лучше всего приступать к изучению Machine Learning с книги Мюллер.А, Гвидо. С. - Введение в машинное обучение с помощью Python. Руководство для специалистов по работе с данными [RUS, 2017] и видеокурса [PacktPub] Machine Learning 101 with Scikit-learn and StatsModels. Возможно перед этим видеокурсом стоит посмотреть видео [Abhilash Nelson] Machine Learning and Data Science with Python: A Complete Beginners Guide [ENG, May 2019]. В этом видео намного больше практики, если кому-то проще начинать с работой с кодом. Какие-то другие материалы, воспринимались намного хуже.

Все это добро можно купить, а если вы такой же жадина на траты всяких обучающих материалов как и я, то я думаю и у вас получится найти все это в интернете на файлопомойках и торрентах.

Предполагается, что вы обладаете знаниями по основам программирования. Конкретно в этом случае, используется Python.


Machine Learning


Reinforcement Learning



Machine Learning


Machine Learning


Machine Learning


Machine Learning


Machine Learning


Machine Learning


Дистрибутивы и среды запуска кода

  1. Мне видится, что лучше самостоятельно поднять свое виртульное окружение с помощью python

  2. Или использовать подготовленный специалистами и уже готовый к работе Docker контейнер.

  3. Также имеется вариант с использованием дистрибутива Anaconda, в которой уже все установлено и настроено.

  4. Облачный Notebook отGoogle Colab


Данные для ML

  • Kaggle содержит все типы крупномасштабных данных для машинного об­ учения: www.kaggle.com/datasets.
  • Data.gov является базой данных, которая была открыта по инициативе правительства США, и в ней содержится много интересных и представляю­ щих практическую ценность наборов данных: https://catalog.data.gov
  • http://archive.ics.uci.edu/ml/datasets/
  • https://github.com/awesomedata/awesome-public-datasets
  • 25000 картинок с отсортированными кошками и собаками https://github.com/matematika-org/CATS_DOGS
  • https://registry.opendata.aws/
  • https://dataportals.org/
  • https://www.quandl.com/


Для Recommender systems оценки фильмов

  • https://grouplens.org/datasets/movielens/


Библиотеки:

Собственно за нас уже все сдалали, нужно научиться пользоваться.

Scikit-learn

Для глубокого обучения scikit-learn подходит хуже. Библиотеки вроде tensorflow позволяют использовать высокопроизводительные графические процессоры (GPU).

Изучение библиотек глубокого обучения вынес сюда


Библиотеки от Apache

  • Spark ML / Spark MLlib (более старая)


Обучающие материалы:

Книги по машинному обучению

Видеокурсы по машинному обучению


Github

Екатерина Тузова - https://github.com/ktisha/ML2018

http://mit.spbau.ru/sewiki/index.php/%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_2018


K-Fold