Машинное обучение (Machine Learning)
Я только приступаю и пытаюсь разобраться что к чему.
Наверное, лучше всего приступать к изучению Machine Learning с книги Мюллер.А, Гвидо. С. - Введение в машинное обучение с помощью Python. Руководство для специалистов по работе с данными [RUS, 2017] и видеокурса [PacktPub] Machine Learning 101 with Scikit-learn and StatsModels. Возможно перед этим видеокурсом стоит посмотреть видео [Abhilash Nelson] Machine Learning and Data Science with Python: A Complete Beginners Guide [ENG, May 2019]. В этом видео намного больше практики, если кому-то проще начинать с работой с кодом. Какие-то другие материалы, воспринимались намного хуже.
Все это добро можно купить, а если вы такой же жадина на траты всяких обучающих материалов как и я, то я думаю и у вас получится найти все это в интернете на файлопомойках и торрентах.
Предполагается, что вы обладаете знаниями по основам программирования. Конкретно в этом случае, используется Python.
- Обучение с учителем (Supervised Learning)
- Обучение без учителя (Unsupervised Learning)
- Обучение с подкреплением (Reinforcement Learning)
Дистрибутивы и среды запуска кода
-
Мне видится, что лучше самостоятельно поднять свое виртульное окружение с помощью python
-
Или использовать подготовленный специалистами и уже готовый к работе Docker контейнер.
-
Также имеется вариант с использованием дистрибутива Anaconda, в которой уже все установлено и настроено.
-
Облачный Notebook отGoogle Colab
Данные для ML
- Kaggle содержит все типы крупномасштабных данных для машинного об учения: www.kaggle.com/datasets.
- Data.gov является базой данных, которая была открыта по инициативе правительства США, и в ней содержится много интересных и представляю щих практическую ценность наборов данных: https://catalog.data.gov
- http://archive.ics.uci.edu/ml/datasets/
- https://github.com/awesomedata/awesome-public-datasets
- 25000 картинок с отсортированными кошками и собаками https://github.com/matematika-org/CATS_DOGS
- https://registry.opendata.aws/
- https://dataportals.org/
- https://www.quandl.com/
Для Recommender systems оценки фильмов
- https://grouplens.org/datasets/movielens/
Библиотеки:
Собственно за нас уже все сдалали, нужно научиться пользоваться.
Scikit-learn
Для глубокого обучения scikit-learn подходит хуже. Библиотеки вроде tensorflow позволяют использовать высокопроизводительные графические процессоры (GPU).
Изучение библиотек глубокого обучения вынес сюда
Библиотеки от Apache
- Spark ML / Spark MLlib (более старая)
Обучающие материалы:
Книги по машинному обучению
Видеокурсы по машинному обучению
Github
Екатерина Тузова - https://github.com/ktisha/ML2018
http://mit.spbau.ru/sewiki/index.php/%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_2018