Линейная регрессия++

Эта заметка написана несколько в другом стиле, чем многие предыдущие… Поскольку автор постоянно совершенствует курс по машинному обучению, здесь берётся самая простая и популярная тема классических курсов по ML, и показывается, о чём в ней можно / стоит ещё рассказать (хотя об этом часто забывают), какие здесь есть сложные и интересные вопросы (если Вы хотите проверить свои или чужие знания по линейной регрессии).

Line.png Читать далее

Кривые в машинном обучении

Этот пост продолжает тему оценки качества алгоритмов машинного обучения для решения задач классификации. Рассмотрим кривые «полнота-точность», Gain, Lift, K-S (machine learning curves) и таблицу для анализа доходности. Самое главное — мы определим все кривые через уже знакомые нам понятия, часто используемые в ML (а не как обычно: для каждой кривой придумывается своя терминология).

ML_curves

Читать далее

Функционалы качества бинарной классификации

Этот пост продолжает серию про функции ошибки и функционалы качества в машинном обучении. Сейчас разберёмся с самой простой подтемой — как измерять качество чёткого ответа в задачах бинарной классификации. Уровень для чтения — начальный;)

а1

Читать далее

Ансамбли в машинном обучении

В этом блоге было уже много постов про разные частные случаи ансамблей. Теперь просто их общая систематизация (точнее, вступительная часть в повествовании про ансамблирование), в результате которой получится самый подробный обзор про ансамблирование в рунете;)

ensemble-ml.jpeg

Читать далее

Подмена задачи в ML

Поговорим о приёмах, которые я всегда называл «подменой задачи», поскольку вместо исходной задачи машинного обучения здесь решается другая задача (с модифицированными данными и другим целевым вектором) с целью анализа данных и улучшения качества решения исходной задачи. В западных источниках некоторые описанные приёмы называются специальными терминами, например, Adversarial Validation, но на русский они всё равно плохо переводятся, поэтому, как я называю с 2010 года – «подмена задачи». Для понимания материала нужно знать постановку задачи машинного обучения и основные термины.

подмена

Читать далее

Нематематика в анализе данных

Сегодня поговорим о нескольких «околоаналитических» темах, которые обычно не затрагивают в учебных курсах по аналитике (бизнес- или ML-), поскольку они совсем не о математике, а больше о психологии. Но их знание не менее важно, чем знание современных методов решения задач, поскольку часто с «хорошим» решением потом нечего делать.

51bMpZhF7ML._SX355_

Читать далее