[Орельен Жерон] Прикладное машинное обучение с помощью Scikit-Learn, Keras и TensorFlow 2-e издание [RUS, 2020]
Коды
https://github.com/ageron/handson-ml2
Все иллюстрации к книге в цветном варианте:
http://go.dialektika.com/mlearning
Самыми распространенными задачами обучения с учителем являются:
- регрессия (прогнозирование значений)
- классификация (прогнозирование классов).
Наиболее важные алгоритмы обучения с учителем:
- k ближайших соседей (k-Nearest Neighbors)
- линейная регрессия (Linear Regression)
- логистическая регрессия (Logistic Regression)
- метод опорных векторов (Support Vector Machine, SVM)
- деревья принятия решений (Decision Tree) и случайные леса (Random Forest)
- нейронные сети (Neural Network)
Наиболее важные алгоритмы обучения без учителя:
• Кластеризация:
- K-Means (К-средние)
- DBSCAN
- иерархический кластерный анализ (Hierarchical Cluster Analysis, HCA)
• Обнаружение аномалий и обнаружение новизны:
- одноклассовый SVM
- изолирующий лес
• Визуализация и понижение размерности:
- анализ главных компонентов (Principal Component Analysis, РСА)
- ядерный анализ главных компонентов (Kernel РСА)
- локальное линейное вложение (Locally-Linear Embedding, LLE)
- стохастическое вложение соседей с t-распределением (t-distributed Stochastic Neighbor Embedding, t-SNE)
• Обучение ассоциативным правилам (association rule learning):
- Apriori
- Eclat
Глава 2: Полный проект машинного обучения
В главе исследуется задача регрессии, прогнозирующая стоимость домов с использованием разнообразных алгоритмов, таких как линейная регрессия, деревья принятия решений и случайные леса.
Критерий качества: RMSE
Notebook’и можно запускать локально или в colab.
Локально больше часа выполнялись вычисления и так и не завершил их.
В ubuntu:
// Устанавливаю следующую версию
$ export PYTHON_VERSION=3.8.12
По доке как здесь
$ git clone https://github.com/ageron/handson-ml2
$ jupyter notebook --ip 0.0.0.0 --port 8888
Глава 3: Кnассификация
Применяется набор данных MNIST (Mixed National Institute of Standards and Technology), который содер жит 70 ООО небольших изображений цифр, написанных от руки учащимися средних школ и служащими Бюро переписи населения США. Каждое изображение помечено цифрой, которую оно представляет.
Каждое изображение имеет размер 28х28 пикселей, а каждый признак просто представляет интенсивность одного пикселя, от О (белый) до 255 (черный).
Набор данных MNIST уже разделен на обучающий набор(первые 60 ООО изображений) и испытательный набор (последние 10 ООО изображений). Обучающий набор уже перетасован.
Confusion Matrix
Анализ ошибок
Глава 4: Обучение модеnей
В главе изучаем
- Linear Regression
- Polynomial Regression
- Logistic Regression
- Softmax Regression (Многомерная логистическая регрессия)