Текущий рейтинг Kaggle

В рейтинге Кэгла есть небольшое, но серьёзное изменение: впервые за долгое время сменился лидер, на первое место вышел Гилберто, потеснив «непобедимого» Оуэна. Отрыв небольшой и легко ликвидируется в одном соревновании, но, как я понимаю, Оуэн уже устал после своих 40 состязаний. Со статистикой, кстати, интересно — Читать далее

Соревновательные платформы

Публикую список известных (мне) соревновательных платформ, на которых выкладываются задачи по анализу данных. Платформы упорядочены по году запуска, указан этот год, среднее число соревнований в год, среднее число участников (команд) в одном соревновании, а также даны комментарии (указаны плюсы и минусы). Читать далее

Интересные визуализации

Это не самые замечательные визуализации и уже «старенькие». Просто одно из моих любимых заданий — просить студентов прислать понравившиеся им способы представления данных. Эти мне прислали в 2014 году. Вот всё руки не доходили выложить. Правда, я выложил только ссылки — многое присылали во вложениях. Читать далее

Блоги (анализ данных)

Список англоязычных блогов и агрегаторов информации по анализу данных. Только те, которые я сам регулярно просматриваю (они постоянно обновляются, информация подаётся удобно, много интересного по small data). Самые популярные я в список не вносил. В комментариях можно рассказать, что читаете вы… Читать далее

Интересные презентации

Просмотрел всевозможные презентации по спортивной аналитике, машинному обучению и анализу данных. Вот наиболее понравившиеся (в списке есть как уже давно известные, так и новые). Спасибо их авторам за ценную информацию! Читать далее

ММП ВМК МГУ (первая летопись)

На днях получили дипломы наши выпускники – последние специалисты (поскольку теперь ВМК перешёл на систему бакалавр+магистр) и первые бакалавры. Это повод поздравить их и написать небольшую заметку про историю нашей кафедры – Математических методов прогнозирования (ММП).

Читать далее

Новая система ранжирования в Kaggle

В рейтинге Кэгла ввели новую систему ранжирования дата-майнеров. За каждое соревнование теперь участник получает такое количество очков:

fm

Что изменилось:

  1. Теперь набранные очки не делятся между всеми участниками команды. Вместо деления на число членов команды производится деление на корень из этого числа. Поэтому объединяться в команды стало выгоднее.
  2. Уменьшилась зависимость от числа участников соревнования. Участвовать в непопулярных соревнованиях стало выгоднее.
  3. Теперь даже старые соревнования влияют на рейтинг, но очки экспоненциально уменьшаются при устаревании. Раньше — учитывались только турниры за последние 2 года.

Подробнее можно прочитать здесь. На распределение участников в топе текущего рейтинга это изменение особо не повлияло. Напомним, что рейтинг Кэгла существует с апреля 2012 года. Это единственный рейтинг прикладников в области статистики и машинного обучения. До настоящего момента чемпионами рейтинга становились:

Как видим, очень широкая география — 11 стран, 12 человек. Интересно, что формально Сергей Юргенсон и Джейсон Тигг никогда не были на вершине рейтинга, т.е. не было момента времени, когда они действительно возглавляли рейтинг. Но после введения новой системы — в их профиле указано, что если бы эта система применялась всё время, то они были бы чемпионами. Джереми Ховард формально тоже никогда не признавался чемпионом, поскольку на момент создания рейтинга он уже работал в компании Kaggle. Отметим, что трое из 12 чемпионов организовали свою компанию по анализу данных. В текущей десятке сильнейших — 6 экс-чемпионов, а двое полностью завершили свои выступления (Ховард и Тигг, кстати, возможно, самые лучшие).

Когда трясёт лидерборд

Недавно завершилось соревнование Restaurant Revenue Prediction. В принципе, здесь я не публикую отчёты о каждом прошедшем соревновании, но в этот раз действительно смешно. Участников было 2257 команд! А объектов в обучении — 137 (если разделить на участников, то не всем хватит:)! Конечно, все знали, что самое опасное это переобучиться, но среди 20 первых команд по финальному лидерборду нет никого, кто был бы в двадцатке в промежуточном лидерборде! Победитель скакнул вверх с 249 места, серебряный призёр — с 54го, бронзовый — с 394.

Читать далее

Наборы данных

Мир программирования (1)

Обзор некоторых (в основном, свежих) материалов по языкам R и Python. Так получилось, что большая часть материалов — для новичков.

  • Learn X in Y minutes (уровень: начальный и средний) Хорошие и небольшие обзоры по языкам программирования.
  • Do you know Python? (уровень: знать Питон) Неплохой тест на знание языка Питон.
  • 5 Best Python Libraries for Data Science (уровень: начальный) Перечень основных библиотек для датамайнера со ссылками на лучшие туториалы.
  • An Introduction to Statistics  (уровень: начальный) Ресурс по статистике, но есть примитивный справочник по Питону для новичков.
  • 14 Best Python Pandas Features (уровень: знать Питон) Небольшой, но очень хороший обзор основных функций пакета Pandas.
  • usefulr.wordpress.com (уровень: средний) Ещё один блог о языке R.
  • R Cheat Sheets (уровень: знать R) Подсказки по языку R, интересный материал по графике в R.
  • The Grammar of Data Science: Python vs R (уровень: средний) Сравнение R и Python на примере одной задачи.