Кривые в машинном обучении

Этот пост продолжает тему оценки качества алгоритмов машинного обучения для решения задач классификации. Рассмотрим кривые «полнота-точность», Gain, Lift, K-S (machine learning curves) и таблицу для анализа доходности. Самое главное — мы определим все кривые через уже знакомые нам понятия, часто используемые в ML (а не как обычно: для каждой кривой придумывается своя терминология).

ML_curves

Читать далее

Нейронные обыкновенные дифференциальные уравнения

На конференции NeurIPS 2018 одной из лучших работ была признана статья «Neural Ordinary Differential Equations». Это нестандартный пост для блога, который, впрочем, может положить начало традиции… я выкладываю несколько обзоров на русском языке этой статьи и прошу читателей помочь выбрать мне лучшие.

ODE

Читать далее

Функционалы качества бинарной классификации

Этот пост продолжает серию про функции ошибки и функционалы качества в машинном обучении. Сейчас разберёмся с самой простой подтемой — как измерять качество чёткого ответа в задачах бинарной классификации. Уровень для чтения — начальный;)

а1

Читать далее

Ансамбли в машинном обучении

В этом блоге было уже много постов про разные частные случаи ансамблей. Теперь просто их общая систематизация (точнее, вступительная часть в повествовании про ансамблирование), в результате которой получится самый подробный обзор про ансамблирование в рунете;)

ensemble-ml.jpeg

Читать далее

Подмена задачи в ML

Поговорим о приёмах, которые я всегда называл «подменой задачи», поскольку вместо исходной задачи машинного обучения здесь решается другая задача (с модифицированными данными и другим целевым вектором) с целью анализа данных и улучшения качества решения исходной задачи. В западных источниках некоторые описанные приёмы называются специальными терминами, например, Adversarial Validation, но на русский они всё равно плохо переводятся, поэтому, как я называю с 2010 года – «подмена задачи». Для понимания материала нужно знать постановку задачи машинного обучения и основные термины.

подмена

Читать далее

Нематематика в анализе данных

Сегодня поговорим о нескольких «околоаналитических» темах, которые обычно не затрагивают в учебных курсах по аналитике (бизнес- или ML-), поскольку они совсем не о математике, а больше о психологии. Но их знание не менее важно, чем знание современных методов решения задач, поскольку часто с «хорошим» решением потом нечего делать.

51bMpZhF7ML._SX355_

Читать далее

С Новым 2019 годом!

По ежегодной традиции поздравляю всех читателей блога с праздником! Немного статистики, небольшой подарок читателям, а также, как я обещал, разберём итоги и правильные ответы Странного теста.

stat2018

Читать далее