Дисбаланс классов

Рассмотрим ситуацию несбалансированных классов – что нужно уточнить при выработке стратегии решения задачи классификации, какие стратегии бывают, как отвечать на вопрос про дисбаланс на собеседовании. Приведём результаты экспериментов, дадим код и практические советы. Уровень для читателя — средний (достаточно знать основы машинного обучения и иметь небольшой опыт в решении задач классификации).

Читать далее

курс «Прикладные задачи анализа данных»

На сайте появилась новая вкладка «Курсы», а главное, выложены материалы этого года (слайды и видео) курса ПЗАД, который читается для студентов ВМК МГУ, а ниже немного об истории курса.

Читать далее

Линейная регрессия++

Эта заметка написана несколько в другом стиле, чем многие предыдущие… Поскольку автор постоянно совершенствует курс по машинному обучению, здесь берётся самая простая и популярная тема классических курсов по ML, и показывается, о чём в ней можно / стоит ещё рассказать (хотя об этом часто забывают), какие здесь есть сложные и интересные вопросы (если Вы хотите проверить свои или чужие знания по линейной регрессии).

Line.png Читать далее

Кривые в машинном обучении

Этот пост продолжает тему оценки качества алгоритмов машинного обучения для решения задач классификации. Рассмотрим кривые «полнота-точность», Gain, Lift, K-S (machine learning curves) и таблицу для анализа доходности. Самое главное — мы определим все кривые через уже знакомые нам понятия, часто используемые в ML (а не как обычно: для каждой кривой придумывается своя терминология).

ML_curves

Читать далее

Функционалы качества бинарной классификации

Этот пост продолжает серию про функции ошибки и функционалы качества в машинном обучении. Сейчас разберёмся с самой простой подтемой — как измерять качество чёткого ответа в задачах бинарной классификации. Уровень для чтения — начальный;)

а1

Читать далее

Ансамбли в машинном обучении

В этом блоге было уже много постов про разные частные случаи ансамблей. Теперь просто их общая систематизация (точнее, вступительная часть в повествовании про ансамблирование), в результате которой получится самый подробный обзор про ансамблирование в рунете;)

ensemble-ml.jpeg

Читать далее

Подмена задачи в ML

Поговорим о приёмах, которые я всегда называл «подменой задачи», поскольку вместо исходной задачи машинного обучения здесь решается другая задача (с модифицированными данными и другим целевым вектором) с целью анализа данных и улучшения качества решения исходной задачи. В западных источниках некоторые описанные приёмы называются специальными терминами, например, Adversarial Validation, но на русский они всё равно плохо переводятся, поэтому, как я называю с 2010 года – «подмена задачи». Для понимания материала нужно знать постановку задачи машинного обучения и основные термины.

подмена

Читать далее

Нематематика в анализе данных

Сегодня поговорим о нескольких «околоаналитических» темах, которые обычно не затрагивают в учебных курсах по аналитике (бизнес- или ML-), поскольку они совсем не о математике, а больше о психологии. Но их знание не менее важно, чем знание современных методов решения задач, поскольку часто с «хорошим» решением потом нечего делать.

51bMpZhF7ML._SX355_

Читать далее

Странный тест по ML

Давненько я не публиковал никаких тестов… итак, новый провокационный шедевр: «странный тест по машинному обучению». Нельзя сказать, что он проверяет какие-то фундаментальные знания, но со всеми вопросами, которые в нём присутствуют, порядочный человек, вращающийся в DS-среде, сталкивается.

test.jpg

Читать далее