Формула Байеса

Для опроса на знание основ машинного обучения я когда-то составил такую задачу:

Тест на болезнь «зеленуху» имеет вероятность ошибки 0.1 (как позитивной, так и негативной), зеленухой болеет 10% населения. Какая вероятность того, что человек болен зеленухой, если у него позитивный результат теста?

Вот попробуйте, для начала, не решая назвать ответ… Читать далее

Задачки про AUC (ROC)

Среди читателей блога много тех, кто только учит машинное обучение, и меня часто спрашивают про разные задачи и упражнения, поэтому начинаю рубрику задача.

Для начала два упражнения, которые мы недавно разбирали с магистрами ВМК МГУ.

Задача 1. Рассматривается задача классификации на два класса. На рис. 1 показаны объекты в пространстве ответов двух алгоритмов (ответы вещественные — до бинаризации по порогу). Вычислить AUC (ROC) для алгоритмов.

Рис. 1.
Рис. 1.1.

Задача 2. Какие значения F1-меры могут быть у классификатора в задаче с двумя непересекающимися классами (положительным и отрицательным) и тремя объектами?

Решение см. под катом… но сначала попробуйте сами, если интересно. Читать далее

Прогноз визитов клиентов

Когда-то на kaggle.com была задачка от dunnhumby: про прогноз визитов клиентов и сумм их покупок. Сейчас данные недоступны. В рамках курса магистрам ВМК МГУ и ПЗАДа я рассказываю о методах решения подобных задач. О них можно почитать Читать далее

Тест на знание машинного обучения

В начале учебного года провёл тестирование наших магистров первого года (ММП ВМК МГУ). Тест составлялся для онлайн-курса (но там, вроде, его пройти нельзя…) и состоит из 50 вопросов. Группа студентов небольшая — 16 человек, но определённые выводы можно сделать. Читать далее

Мой спецсем: анализ твитов и разбиение графа

Спецсеминар для моих студентов и аспирантов будет проходить по средам в 607 ауд. ВМК МГУ, начало в 18:10. Завтра (16.09.2015) будет Читать далее

Moscow Data Fest

Для тех, кто не зарегистрировался на Moscow Data Fest ещё не поздно это сделать! Я общался с организаторами, вроде, будет интересно. Правда, программа так до конца и не уточнена, хотя до мероприятия остаётся чуть больше суток (меня, правда, на нём не будет). Читать далее

Интересные визуализации

Это не самые замечательные визуализации и уже «старенькие». Просто одно из моих любимых заданий — просить студентов прислать понравившиеся им способы представления данных. Эти мне прислали в 2014 году. Вот всё руки не доходили выложить. Правда, я выложил только ссылки — многое присылали во вложениях. Читать далее