[Skillbox] Профессия‌ ‌Data‌ ‌Scientist‌ - Machine Learning

Colab

Чтобы загрузить свой файл, можно добавить.

from google.colab import files
uploaded = files.upload()

import io
houses = pd.read_csv(io.BytesIO(uploaded['1.4_houses.csv']))

Появится окно выбора файла. Выбрать файл со своего компьютера.

Модуль 01

Обучение с учителем

Регрессия colab
Классификация colab

Обучение без учителя

Кластеризация colab

Модуль 02: Жизненный цикл проектов ML

Модуль 03: Линейная регрессия

Урок 1. - 3.1 Постановка ML задачи линейной регрессии
Урок 2. - 3.3 Продвинутый уровень понимания линейной регрессии
Урок 5. - 3.5 Домашняя работа
3.6 Метрики качества линейной регрессии
Mean Absolute Error (MAE) - сумма отклонений истинных значений y от предсказаний нашей модели. Потом мы эту сумму делим на количество точек - получаем среднюю ошибку. Метрика принимает только положительные значения! Чем ближе к нулю, тем лучше модель.
Mean Squared Error (MSE) - Для каждого предсказанного значения y^ мы считаем квадрат отклонения от фактического значения и считаем среднее по полученным величинам. Метрика принимает только положительные значения! Чем ближе к нулю, тем лучше модель. (Если есть выбросы, лучше не применять)
R2 (coefficient of determination) Наилучшее возможное значение 1.0, чем меньше тем хуже.
3.7 Домашняя работа
3.8 Трансформация входных данных для линейной регрессии

Для борьбы с выбросами:

Логарифмирование np.log
Извлечение квадратного корня np.sqrt

Оба меняют абсолютные значения, но сохраняют порядок величин.

Standart Scaling (z-score normalization) - сглаживает данные, избавляет от выбросов.
min-max normalization. Переносит все точки на отерзок [0-1]
3.9 Домашняя работа
3.10 Полиномиальная регрессия
3.11 Домашняя работа

Модуль 04: Регуляризация

4.1 Регуляризация

Регуляризация - способ борьбы с переобучением.

Обучающую выборку разделяем на 2 части 80 / 20.
Выбираем метрику качества модели (для регрессии, например, RMSE)
Обучаем модель на тренировочном наборе данных
Делаем предсказания на валидационном наборе данных и вычисляем метрику качества

Признак переобучения: Если качество на вилидации сильно хуже качества на обучающем сете.

Регуляризация в sklearn:

Ridge
Lasso

Оба принимают на вход параметр регуляризации alpha, который принимает значения от 0 до 1. Чем ближе к единице, тем регуляризация сильнее.

L2 регуляризация (также называют гребневой регрессией) - в целевую функцию добавляются квадраты коэффициентов регрессии. Если фичей мало, использовать ее.

L1 регуляризация (в sklearn.linear_model.Lasso) - добавляются модули весов. Если фичей много - сотни или тысячи рекомендуют использовать ее. Т.к. она обнулит фичи, которые значимыми не являются.

4.4 Математическая магия регуляризации

Выбрать правильное значение коэффициента регуляризации поможет процедура, которая называется “отложеннй контроль”.

В цикле выбираем разные варианты и выбираем тот который лучше.

4.7 Обучение моделей с помощью градиентного спуска

4.8 Домашняя работа

4.9 Математическая магия градиентного спуска

4.12 Домашняя работа

Модуль 05: Алгоритм KNN

Модуль 06: Метрики качества классификации

С помощью Confusion Matrix (Матрица ошибок)

Accuracy (Доля правильных ответов)
Precision (Точность)
Recall (Полнота)
6.1 Метрики качества классификации
6.2 Домашняя работа
6.3 Метрики качества классификации. Часть 2
F-мера
Area Under Curve - Receiver Operating Characteristic Curve (AUC-ROC)
Logloss (Логистическая функция потерь)
6.4 Домашняя работа
6.5 Мультиклассовая классификация
OvA (One-versus-all) Один против всех
6.6 Домашняя работа

Модуль 07: Постановка ML задачи кластеризации

Используется когда кластеры линейно разделимы.

DBSCAN (Density-based spatial clustering of allications with noise - плотностной алгоритм пространственной кластеризации с присутствием шума).

Автоматически отсеиваит шумы (выбросы).

7.9 Метрики качества кластеризации
Silhouette (Коэффициент силуэта) - используют, когда есть только сами объекты, а метки кластеров отсутствуют в обучающей выборке
AMI - используют, когда известны “истинные” метки кластеров
7.10 Домашняя работа

Модуль 08: Дополнительные техники: Снижение размерности

8.1 Конспекты
Principal Component Analysis (PCA) (метод главных компонент)
8.2 Применение PCA для снижения размерности
8.3 Домашняя работа
8.4 Продвинутый уровень: реализация алгоритма PCA
8.5 SVD преобразование

Singular Value Decompozition

Если размерность матриц небольшая (до 100 переменных) - применяется PCA, иначе SVD.

Используется, когда данные большой размерности и связи между переменными нелинейны

8.8 Домашняя работа

Модуль 09: Дополнительные техники классификации: Booksting

Ансамбли алгоритмов - метод, использующий одновременно несколько обучающих алгоритмов для получения лучшего результата по сравнению с результатами каждого из алгоритмов в отдельности.

Каждый следующий алгоритм строится, опираясь на объекты, неверно классифицированные предыдущими алгоритмами.

9.1 Конспекты

Обычно используются ансамбли обнородных базовых алгоритмов. (Обычно применяются деревья решений)

Обычно используются разнородные базовые алгоритмы.