Линейная регрессия++

Эта заметка написана несколько в другом стиле, чем многие предыдущие… Поскольку автор постоянно совершенствует курс по машинному обучению, здесь берётся самая простая и популярная тема классических курсов по ML, и показывается, о чём в ней можно / стоит ещё рассказать (хотя об этом часто забывают), какие здесь есть сложные и интересные вопросы (если Вы хотите проверить свои или чужие знания по линейной регрессии).

Line.png Читать далее

Кривые в машинном обучении

Этот пост продолжает тему оценки качества алгоритмов машинного обучения для решения задач классификации. Рассмотрим кривые «полнота-точность», Gain, Lift, K-S (machine learning curves) и таблицу для анализа доходности. Самое главное — мы определим все кривые через уже знакомые нам понятия, часто используемые в ML (а не как обычно: для каждой кривой придумывается своя терминология).

ML_curves

Читать далее

Функционалы качества бинарной классификации

Этот пост продолжает серию про функции ошибки и функционалы качества в машинном обучении. Сейчас разберёмся с самой простой подтемой — как измерять качество чёткого ответа в задачах бинарной классификации. Уровень для чтения — начальный;)

а1

Читать далее

Ансамбли в машинном обучении

В этом блоге было уже много постов про разные частные случаи ансамблей. Теперь просто их общая систематизация (точнее, вступительная часть в повествовании про ансамблирование), в результате которой получится самый подробный обзор про ансамблирование в рунете;)

ensemble-ml.jpeg

Читать далее

Подмена задачи в ML

Поговорим о приёмах, которые я всегда называл «подменой задачи», поскольку вместо исходной задачи машинного обучения здесь решается другая задача (с модифицированными данными и другим целевым вектором) с целью анализа данных и улучшения качества решения исходной задачи. В западных источниках некоторые описанные приёмы называются специальными терминами, например, Adversarial Validation, но на русский они всё равно плохо переводятся, поэтому, как я называю с 2010 года – «подмена задачи». Для понимания материала нужно знать постановку задачи машинного обучения и основные термины.

подмена

Читать далее

Нематематика в анализе данных

Сегодня поговорим о нескольких «околоаналитических» темах, которые обычно не затрагивают в учебных курсах по аналитике (бизнес- или ML-), поскольку они совсем не о математике, а больше о психологии. Но их знание не менее важно, чем знание современных методов решения задач, поскольку часто с «хорошим» решением потом нечего делать.

51bMpZhF7ML._SX355_

Читать далее

Странный тест по ML

Давненько я не публиковал никаких тестов… итак, новый провокационный шедевр: «странный тест по машинному обучению». Нельзя сказать, что он проверяет какие-то фундаментальные знания, но со всеми вопросами, которые в нём присутствуют, порядочный человек, вращающийся в DS-среде, сталкивается.

test.jpg

Читать далее

Интерпретации чёрных ящиков

Машинное обучение, в основном, отвечает на вопросы КАКАЯ(ОЙ) / КТО(ЧТО) / СКОЛЬКО? «Что изображено?», «какая будет цена акции?» и т.п. Самый естественный следующий человеческий вопрос: ПОЧЕМУ? Кроме ответа чёрного ящика (будь то бустинг или нейросеть), нам хотелось бы получить аргументацию этого ответа… Ниже представляю обзор проблематики интерпретации (это одна из тем, которая есть в моём курсе для магистров ММП ВМК МГУ, и которой не уделяется время в любом другом курсе по машинному обучению и анализу данных).

Interpretations.jpg

Читать далее

Байесовский подход

В этом посте расскажем о формуле Байеса и её применении в машинном обучении. С этого года я буду читать много всяких новых курсов, в том числе, потоковый курс по «Машинному обучению и анализу данных» на факультете ВМК МГУ. Поэтому сейчас пребываю в поисках правильных формы/объёма/манеры подачи материала (чтобы не сильно лезть в теорию, но дать представление, зачем теория нужна). Постарался сделать максимально доступно, но предварительные знания по терверу нужны…

Bayes.jpg

Читать далее