Недавно стартовал новый конкурс по анализу данных. В помощь новичкам, которые захотят поиграться его данными, вот презентация, которую я обсуждал со своими магистрами на прошлом занятии, а вот код, с помощью которого получены все графики. Кстати, большие ipynb-файлы с гитхаба лучше смотреть с помощью nbviewer, например так.
анализ данных
id и время
На первых же занятиях по анализу данных, один из приёмов, которым я учу студентов — построение диаграммы рассеивания (скатерплот) по признакам id (номер в таблице) и время (номер, когда сделана запись). Недавно я сам попался на том, что вовремя не применил этот приём…
Полезные знания
Недавно на DataReview прошёл конкурс на лучшее предложение темы статьи, в котором автор блога даже победил, предложив тему «Самые полезные знания в Data Science». Предполагалось, что журналисты опросят видных специалистов по DS (которые ведут реальные прикладные разработки) и выяснят, какие знания им самим пригодились, чему они учат новичков и т.п. Вот что получилось у DataReview. Честно говоря, я немного разочарован небольшим объёмом материала и маленьким покрытием современных компаний. Поэтому пришлось провести свой опрос. Он проводился среди сотрудников разных компаний (специально исключил банки и операторов большой тройки — они и так у всех на слуху). Все опрошенные DS-аналитики реально работают с данными, большинство из них достаточно известны среди нашего узкого круга.
Читать далее
Avito + Telstra + BNP
Кто ещё не смотрел — советую посмотреть видео с последних тренировок по машинному обучению. Очень хорошие доклады:
- Евгений Нижибицкий Конкурс Avito по распознаванию изображений
- Дарья Васюкова Kaggle Telstra Network Disruptions
- Станислав Семенов Kaggle BNP Paribas
DS Meetup (весна, 2016)
По традиции в последнюю пятницу сезона в московском офисе Mail.Ru Group собираются любители наук о данных. Ровно через неделю — 27 мая в 18:30 по адресу Ленинградский проспект, 39, стр. 79 можно будет послушать следующие доклады:
Соревнования весны 2016
Некэгловский свежачок для любителей анализа данных и машинного обучения. Решайте, сейчас много всего интересного! А на следующей неделе я расскажу, как сам на днях кое-что решил;)
Научные конференции 2016
Привожу список мероприятий 2016 года, на которые ещё не поздно подать заявку (если Вы активный учёный) или просто посетить (если Вас интересует анализ данных, машинное обучение и т.п.). В скобках указано время и место проведения, срок подачи указан ориентировочно (он зависит от того, что подавать, кроме того, его часто продлевают).
DataFest²
Первые весенние выходные можно провести на DataFest². В офисе Mail.Ru будут говорить о спортивном анализе данных, глубинном обучении, найме сотрудников, анализе соцсетей и текстов. Будет хакатон с призами;) Спешите зарегистрироваться.
Александр Гущин
Сегодня в блоге материал из цикла ЖЗЛ;), в котором читатели познакомятся с интересными людьми. Правила очень простые: я нахожу неординарную личность и заваливаю вопросами (от любимой музыки и языков программирования до планов на жизнь и прогнозов будущего «датамайнинга»). На какие вопросы отвечать — каждый выбирает сам. Публикую ответы «как есть». Читатели могут оставлять и свои вопросы в комментариях;) Ну и мнение о подобном цикле (нужен/не нужен).
Первопроходцем в таком интервьюировании стал Саша Гущин, который за несколько последних соревнований на Кэгле два раза брал золото и один раз был третьим. Сейчас он 5й в общем рейтинге платформы после всего 20 соревнований. Итак, поехали… Читать далее
Немного про собеседования
Закончился период, когда я активно принимал участие в собеседованиях в разных компаниях, причём не только в тех, с которыми тесно сотрудничаю. Часто знакомые просят помочь в наборе команды, и, пожалуй, это единственная просьба, в которой я не отказываю, поскольку есть повод навестить старых знакомых, посмотреть, как они делают «Биг дату», ну и пообщаться с молодёжью – желающими поработать.
Самое забавное, что Читать далее