Любители прекрасного, посмотрите самые лучшие визуализации уходящего года! Очень интересные и красивые, причём конкурс проходил в разных номинациях: визуализация данных, инфографика, интерактивная графика, графика в бизнес-проектах, в журналистике, студенческие работы, мобильные картинки, командные проекты, графика в коммерческом ПО. Читать далее
обзор
Текущий рейтинг Kaggle
В рейтинге Кэгла есть небольшое, но серьёзное изменение: впервые за долгое время сменился лидер, на первое место вышел Гилберто, потеснив «непобедимого» Оуэна. Отрыв небольшой и легко ликвидируется в одном соревновании, но, как я понимаю, Оуэн уже устал после своих 40 состязаний. Со статистикой, кстати, интересно — Читать далее
Соревновательные платформы
Публикую список известных (мне) соревновательных платформ, на которых выкладываются задачи по анализу данных. Платформы упорядочены по году запуска, указан этот год, среднее число соревнований в год, среднее число участников (команд) в одном соревновании, а также даны комментарии (указаны плюсы и минусы). Читать далее
Интересные визуализации
Это не самые замечательные визуализации и уже «старенькие». Просто одно из моих любимых заданий — просить студентов прислать понравившиеся им способы представления данных. Эти мне прислали в 2014 году. Вот всё руки не доходили выложить. Правда, я выложил только ссылки — многое присылали во вложениях. Читать далее
Блоги (анализ данных)
Список англоязычных блогов и агрегаторов информации по анализу данных. Только те, которые я сам регулярно просматриваю (они постоянно обновляются, информация подаётся удобно, много интересного по small data). Самые популярные я в список не вносил. В комментариях можно рассказать, что читаете вы… Читать далее
Интересные презентации
Просмотрел всевозможные презентации по спортивной аналитике, машинному обучению и анализу данных. Вот наиболее понравившиеся (в списке есть как уже давно известные, так и новые). Спасибо их авторам за ценную информацию! Читать далее
ММП ВМК МГУ (первая летопись)
На днях получили дипломы наши выпускники – последние специалисты (поскольку теперь ВМК перешёл на систему бакалавр+магистр) и первые бакалавры. Это повод поздравить их и написать небольшую заметку про историю нашей кафедры – Математических методов прогнозирования (ММП).
Новая система ранжирования в Kaggle
В рейтинге Кэгла ввели новую систему ранжирования дата-майнеров. За каждое соревнование теперь участник получает такое количество очков:
Что изменилось:
- Теперь набранные очки не делятся между всеми участниками команды. Вместо деления на число членов команды производится деление на корень из этого числа. Поэтому объединяться в команды стало выгоднее.
- Уменьшилась зависимость от числа участников соревнования. Участвовать в непопулярных соревнованиях стало выгоднее.
- Теперь даже старые соревнования влияют на рейтинг, но очки экспоненциально уменьшаются при устаревании. Раньше — учитывались только турниры за последние 2 года.
Подробнее можно прочитать здесь. На распределение участников в топе текущего рейтинга это изменение особо не повлияло. Напомним, что рейтинг Кэгла существует с апреля 2012 года. Это единственный рейтинг прикладников в области статистики и машинного обучения. До настоящего момента чемпионами рейтинга становились:
- Джереми Ховард (Австралия/США)
- Александр Дьяконов (Россия)
- Джейсон Тигг (Великобритания)
- Ксавиер Конор (Франция/Сингапур)
- Янис Сисманис (США)
- Чарли Танг (Канада)
- Сергей Юргенсон (Россия/США)
- Стив Донохо (США)
- Жозе А. Гуэрреро (Испания)
- Лукас Гомес дэ Сильва (Бразилия)
- Мариос Мичаилидис (Греция)
- Оуэн Жанг (Китай/США)
Как видим, очень широкая география — 11 стран, 12 человек. Интересно, что формально Сергей Юргенсон и Джейсон Тигг никогда не были на вершине рейтинга, т.е. не было момента времени, когда они действительно возглавляли рейтинг. Но после введения новой системы — в их профиле указано, что если бы эта система применялась всё время, то они были бы чемпионами. Джереми Ховард формально тоже никогда не признавался чемпионом, поскольку на момент создания рейтинга он уже работал в компании Kaggle. Отметим, что трое из 12 чемпионов организовали свою компанию по анализу данных. В текущей десятке сильнейших — 6 экс-чемпионов, а двое полностью завершили свои выступления (Ховард и Тигг, кстати, возможно, самые лучшие).
Когда трясёт лидерборд
Недавно завершилось соревнование Restaurant Revenue Prediction. В принципе, здесь я не публикую отчёты о каждом прошедшем соревновании, но в этот раз действительно смешно. Участников было 2257 команд! А объектов в обучении — 137 (если разделить на участников, то не всем хватит:)! Конечно, все знали, что самое опасное это переобучиться, но среди 20 первых команд по финальному лидерборду нет никого, кто был бы в двадцатке в промежуточном лидерборде! Победитель скакнул вверх с 249 места, серебряный призёр — с 54го, бронзовый — с 394.
Наборы данных
- Awesome Public Datasets on GitHub доступные наборы данных из разных областей
- A Benchmark Dataset for Time Series Anomaly Detection Новый набор данных для задачи обнаружения выбросов (детектирования аномалий).
- PlaneCrashInfo Статистика крушений самолётов. Здесь пример, как её можно обрабатывать.