Токенизация на подслова (Subword Tokenization)

Эта заметка для более продвинутых в ML (в отличие от основной массы предыдущих постов): для тех, кто постигает таинства анализа текстов, поскольку речь пойдёт о предобработке текстовых данных, которая может улучшить качество в некоторых задачах.

subword

Читать далее

Линейная регрессия++

Эта заметка написана несколько в другом стиле, чем многие предыдущие… Поскольку автор постоянно совершенствует курс по машинному обучению, здесь берётся самая простая и популярная тема классических курсов по ML, и показывается, о чём в ней можно / стоит ещё рассказать (хотя об этом часто забывают), какие здесь есть сложные и интересные вопросы (если Вы хотите проверить свои или чужие знания по линейной регрессии).

Line.png Читать далее

Python и Pandas: делаем быстрее

Давно в блоге не было материалов для любителей Python. В прошлом году я провёл эксперимент: предложил студентам усовершенствовать свои фрагменты кода для предобработки данных. В некоторых местах я специально писал неоптимально, а в некоторых думал, что оптимально… сейчас расскажу, что из этого получилось. При чтении старайтесь не пролистывать быстро вниз: попробуйте догадаться, какие из предложенных вариантов кода самые быстрые.

bystro.jpg

Читать далее

Кривые в машинном обучении

Этот пост продолжает тему оценки качества алгоритмов машинного обучения для решения задач классификации. Рассмотрим кривые «полнота-точность», Gain, Lift, K-S (machine learning curves) и таблицу для анализа доходности. Самое главное — мы определим все кривые через уже знакомые нам понятия, часто используемые в ML (а не как обычно: для каждой кривой придумывается своя терминология).

ML_curves

Читать далее

Нейронные обыкновенные дифференциальные уравнения

На конференции NeurIPS 2018 одной из лучших работ была признана статья «Neural Ordinary Differential Equations». Это нестандартный пост для блога, который, впрочем, может положить начало традиции… я выкладываю несколько обзоров на русском языке этой статьи и прошу читателей помочь выбрать мне лучшие.

ODE

Читать далее

Функционалы качества бинарной классификации

Этот пост продолжает серию про функции ошибки и функционалы качества в машинном обучении. Сейчас разберёмся с самой простой подтемой — как измерять качество чёткого ответа в задачах бинарной классификации. Уровень для чтения — начальный;)

а1

Читать далее

Ансамбли в машинном обучении

В этом блоге было уже много постов про разные частные случаи ансамблей. Теперь просто их общая систематизация (точнее, вступительная часть в повествовании про ансамблирование), в результате которой получится самый подробный обзор про ансамблирование в рунете;)

ensemble-ml.jpeg

Читать далее