[Орельен Жерон] Прикладное машинное обучение с помощью Scikit-Learn, Keras и TensorFlow 2-e издание [RUS, 2020]


Коды
https://github.com/ageron/handson-ml2


Все иллюстрации к книге в цветном варианте:
http://go.dialektika.com/mlearning


Самыми распространенными задача­ми обучения с учителем являются:


  • регрессия (прогнозирование значений)
  • классификация (прогнозирование классов).


Наиболее важные алгоритмы обучения с учителем:


  • k ближайших соседей (k-Nearest Neighbors)
  • линейная регрессия (Linear Regression)
  • логистическая регрессия (Logistic Regression)
  • метод опорных векторов (Support Vector Machine, SVM)
  • деревья принятия решений (Decision Tree) и случайные леса (Random Forest)
  • нейронные сети (Neural Network)


Наиболее важные алгоритмы обучения без учите­ля:

• Кластеризация:

  • K-Means (К-средние)
  • DBSCAN
  • иерархический кластерный анализ (Hierarchical Cluster Analysis, HCA)

• Обнаружение аномалий и обнаружение новизны:

  • одноклассовый SVM
  • изолирующий лес

• Визуализация и понижение размерности:

  • анализ главных компонентов (Principal Component Analysis, РСА)
  • ядерный анализ главных компонентов (Kernel РСА)
  • локальное линейное вложение (Locally-Linear Embedding, LLE)
  • стохастическое вложение соседей с t-распределением (t-distributed Stochastic Neighbor Embedding, t-SNE)

• Обучение ассоциативным правилам (association rule learning):

  • Apriori
  • Eclat


Глава 2: Полный проект машинного обучения


В главе исследуется задача регрессии, прогнозирующая стоимость домов с использованием раз­нообразных алгоритмов, таких как линейная регрессия, деревья принятия решений и случайные леса.


colab

Критерий качества: RMSE


Notebook’и можно запускать локально или в colab.
Локально больше часа выполнялись вычисления и так и не завершил их.


В ubuntu:

// Устанавливаю следующую версию
$ export PYTHON_VERSION=3.8.12

По доке как здесь


$ git clone https://github.com/ageron/handson-ml2


$ jupyter notebook --ip 0.0.0.0 --port 8888


Глава 3: Кnассификация


colab

Применяется набор данных MNIST (Mixed National Institute of Standards and Technology), который содер­ жит 70 ООО небольших изображений цифр, написанных от руки учащимися средних школ и служащими Бюро переписи населения США. Каждое изоб­ражение помечено цифрой, которую оно представляет.

Каждое изображение имеет размер 28х28 пикселей, а каждый признак просто представляет интенсивность одного пикселя, от О (белый) до 255 (черный).

Набор данных MNIST уже разделен на обучающий набор(первые 60 ООО изображений) и испытательный набор (последние 10 ООО изображений). Обучающий набор уже перетасован.

Confusion Matrix

Анализ ошибок


Глава 4: Обучение модеnей

В главе изучаем

  • Linear Regression
  • Polynomial Regression
  • Logistic Regression
  • Softmax Regression (Многомерная логистическая регрессия)


colab