Градиентный бустинг

Пост про градиентный бустинг (Gradient Boosting), но не совсем обычный. Вместо текста прикрепляю pdf. Вопрос к читателям блога: будет ли полезно, если я подготовлю книжку в таком стиле по основным темам машинного обучения?

boosting.jpg Читать далее

Cтекинг (Stacking) и блендинг (Blending)

Стекинг (Stacked Generalization или Stacking) — один из самых популярных способов ансамблирования алгоритмов, т.е. использования нескольких алгоритмов для решения одной задачи машинного обучения. Пожалуй, он замечателен уже тем, что постоянно переизобретается новыми любителями анализа данных. Это вполне естественно, его идея лежит на поверхности. Известно, что если обучить несколько разных алгоритмов, то в задаче регрессии их среднее, а в задаче классификации — голосование по большинству, часто превосходят по качеству все эти алгоритмы. Возникает вопрос: почему, собственно, использовать для ансамблирования такие простые операции как усреднение или голосование? Можно же ансамблироование доверить очередному алгоритму (т.н. «метаалгоритму») машинного обучения.

stacked

Читать далее

Смеси алгоритмов победителей

В соревновательном анализе данных всегда интересно, а какое же «идеальное» решение, сколько участники не дотянули до него. Грубая оценка — комбинация решений участников. А ещё интересно, что было бы, если бы некоторые участники объединились в команду (или наоборот не стали бы объединяться). К сожалению, практически все соревновательные платформы держат в секрете алгоритмы участников (и их ответы). В одном случае всё-таки удалось кое-что поисследовать, см. заметку «Нужно ли смешивать решения победителей» на платформе АлгоМост.