С Новым 2019 годом!

По ежегодной традиции поздравляю всех читателей блога с праздником! Немного статистики, небольшой подарок читателям, а также, как я обещал, разберём итоги и правильные ответы Странного теста.

stat2018

Если Вы заметили, в блоге уже давно нет назойливой рекламы! Кроме того, блог теперь находится по адресу dyakonov.org (хотя старый адрес alexanderdyakonov.wordpress.com тоже валидный).

Для удобства я сделал карту блога, теперь все посты (точнее все популярные, без объявлений) сгруппированы по темам — должно быть удобно для новичков. Недавно удалил свой старый сайт (на narod.ru), но по просьбам читателей, старые материалы перенёс сюда (см. раздел «Науч-поп» на карте)

Число опубликованных постов в этом году — 14, вся статистика по годам представлена в таблице.

likes.png

Число посетителей выросло по сравнению с прошлым годом (см. титульный рис.), и уже близко к точке насыщения. У блога 415 постоянных подписчика (те, кому приходят оповещения на почту или есть аккаунт на wordpress, а год назад было 280), ещё 253 читателей показано в статистике Feedly.

Большинство приходит в блог по поисковым запросам, причём от Гугла, по прежнему, приходит в 5 раз больше человек, чем от Яндекса. Очень много заходов с различных соревновательных платформ и образовательных курсов. Чаще всего блог просматривают по вторникам в 18:00. География заходов на сайт показана на рис. По сравнению с 2017 годом, шестёрка стран-лидеров по заходам осталась неизменной (Россия, Украина, Беларусь, США, Казахстан, Германия), а с 7го места Францию потеснила Великобритания.

страны.jpg

Самые популярные посты этого года

  1. Логистическая функция ошибки (5498 просмотров)
  2. Вопросы на собеседованиях (4013)
  3. Смещение (bias) и разброс (variance) (2607)
  4. Байесовский подход  (2505)

Из записей прошлых лет:

  1. AUC ROC (площадь под кривой ошибок) (15143 — запись 2017 года)
  2. Случайный лес (Random Forest) (12096 — 2016)
  3. Python: категориальные признаки (9073 — 2016)
  4. Cтекинг (Stacking) и блендинг (Blending) (7202 — 2017)
  5. Поиск аномалий (Anomaly Detection) (6934 — 2017)

Теперь, как я и обещал, разберём странный тест по ML, который я недавно выложил в блоге. Его прошло 148 человек, для сравнения Минитест на знание ML и DM прошло почти 700 человек. Как мне говорили некоторые, они посмотрели вопросы и просто испугались проходить. Статистика прохождения показана на рис.

strange.png

Для каждого вопроса нужно было выбрать один из четырёх ответов. Сразу скажу, что правильный ответ всегда третий. Студенты, у которых я веду занятия, знают, что я всегда оставляю «пасхальное яйцо» а заданиях;) Теперь самые сложные вопросы…

Классический курс Калтеха от Yaser Abu-Mostafa имеет такую эмблему (см. рис). Что на ней изображено?

(правильно ответили 9 из 148)

caltex.png

Собственно, я постоянно слышу, что курс Калтеха «волшебный», идёт на втором месте по популярности после курса Эндрю Ына, на нём всё просто и понятно… Возникает естественный вопрос, а «что же на эмблеме?», тем более, что в понятном курсе этому посвящена целая лекция! Правильный ответ — стохастический и детерминистический шум! Если Вы вообще не понимаете, что это за термины, пересматривайте курс заново;)

Как в уже ставшей классической книге «Глубокое обучение» Я.Гудфеллоу и товарищи объясняют, что в многомерных пространствах стационарные точки, как правило, седловые?

(правильно ответили 14 из 148)

Опять же, все же хвалят книгу deeplearningbook. Мне она тоже нравится, но не потому, что там написано что-то полезное. В основном, там базовые вещи, и сейчас уже немного устаревшие, но вот талант авторов (или какого-то одного автора) оригинально смотреть на обыденные в DL вещи меня очень поразил. Правильный ответ — с помощью монетки! Перечитывайте главу Optimization, а для тех, кто не поленился и купил русское цветное издание, я даже страницу назову — 246.

Как Фридман назвал градиентный бустинг над деревьями?

(правильно ответили 14 из 148)

Ну тут да… больше на знание истории ML, чем на знание чего-то полезного и нужного, но это есть даже на странице вики про градиентный бустинг — TreeBoost.

В лучшей программе по игре в Go – AlphaGo Zero – для описания позиции использован тензор размера 19 x 19 x 17, известно, что 19 x 19 – размеры игрового поля, почему 17?

(правильно ответили 27 из 148)

Ну тут уж извините, все говорят, что искусственный интеллект побеждает человека в играх, не грех и почитать… Если лень в оригинале, то вот — на хабре. А вообще-то, это задача на логику: при программировании игр как-то передают последние ходы, поэтому 17 = 8 (полуходов чёрных) + 8 (полуходов белых) + 1 (метаинформация, здесь — только цвет твоих фишек). В любом случае, должно быть 2N+k. Есть, конечно, и другие способы передачи истории партии, но я уже боюсь спрашивать.

Что такое «цензурированные данные»?

(правильно ответили 27 из 148)

Это стандартный термин. Его точно грех не знать, особенно если Вы говорите, что специализируетесь в анализе данных (а не машинном обучении). Данные, в которых нет полной информации о объекте.

Как видите, всё просто;) А вот и лучшие прохождения теста (см. табл.). Ясно, что тут три левых ника. Но Амир Мирас и Печёнкин Богдан всегда могут обратиться ко мне за рекомендациями. А если потенциальный работодатель читает эти строки, срочно связывайтесь с ними (первый — мой магистр, а второй — недавно был в призёрах Газпромнефти)

leaders.png

Теперь совсем немного о себе… на следующий год опять много планов. Надо доделать все учебные курсы, которые я запланировал (прямо сейчас глубоко погружен в RL). Сфера моих профессиональных интересов, видимо, сместится в сторону обработки текстов, построению чатботов, технологий speech2text и text2speech, что, скорее всего, повлияет на содержание блога. Поскольку на книгу постоянно не остаётся времени, есть идея создавать видео-контент (небольшие обучающие ролики) на базе имеющегося материала… но это как пойдёт.

В комментариях можно оставлять пожелания по содержанию блога в 2019 году, замечания и критику… Желательно представляться;) Собственно, блог я веду пока вижу, что «это кому-нибудь нужно».

Ещё раз всех с Новогодними праздниками, счастья, здоровья, удачи!

С Новым 2019 годом!: 17 комментариев

  1. С Наступающим и огромное спасибо за блог. К сожалению критики и замечаний с моей стороны пока нет, но для меня ваш блог полезен, так что пишите, будем читать. По-поводу пожеланий — обработка текста достаточно интересная и обширная тема, так что будем ждать новых постов. Вы сказали, что сфера ваших проф. интересов сместится в эту сторону, если не секрет — то что за проект/ы?

    Представиться могу, но врятли это как то поможет — Евгений Миронов, работаю в Toptal.

    • Спасибо. Вас персонально с Новым годом!

      Ещё, по крайней мере, один месяц секрет. Потом, при случае, расскажу подробности. Собственно, это больше исследовательский проект, в который, кстати, нужны будут исследователи (разрабатывать новые методы, быть в курсе SOTA и т.п.)

      • Звучит интересно, это в рамках университетской деятельности или за ее пределами?

  2. Спасибо за блог и с Новым годом!
    Пишите еще, пожалуйста, у Вас хорошо получается!
    У меня на столе всегда лежат Ваши статьи.

  3. > 17 = 1 (текущее положение) + 8 (полуходов чёрных) + 8 (полуходов белых)

    Если задача на логику, то странная она у вас, Александр. 17-й дополнительный вход – это не текущее положение, а цвет текущего игрока.

    • Да, в целом я совсем неверно всё описал. Обычно делают 2N+K, K -для описания метаинформации о позиции (например, в шахматах — ходили ли король и ладьи и т.п.), 2N — для описания полуходов соперников. Но конкретно в реализации АльфаГо — это не полуходы, а факты нахождения камней определённого цвета на позициях. А вся метаинформация состоит из указания цвета, для этого используется один канал.

      Из постановки вопроса и вариантов ответа, на мой взгляд, всё равно всё интуитивно… а здесь я ступил. Сейчас подумаю, как исправить, приложив минимум усилий.

  4. С Новым годом, Александр Геннадьевич!

    Успехов и удачи Вам в новых направлениях исследований и в разработке учебных курсов! Пусть сил и энергии хватает на воплощение всех идей и планов!

    Спасибо Вам большое за блог, и в особенности за впечатляющие и вдохновляющие примеры объяснения машинного обучения доступным языком, решения сложных задач простыми методами и полезности визуализации данных. Про технологии обработки текстов будет тоже очень интересно почитать. Буду ждать новых постов в 2019 году!

    Маша

    • Машенька, радость моя, Вы меня ещё помните:) Это самый большой подарок на Новый год! Спасибо. Вам тоже удачи, сил и энергии!

      • Спасибо большое! Надеюсь, машинного обучения в моей профессиональной жизни будет больше в этом году — это один из новогодних планов. Часто вспоминаю Ваше напутствие: «Вперёд движется тот, кто хотя бы ползёт».

  5. С наступившим!
    А что за счетчик лайков? Если можно посты лайкать, я б воспользовался 😉

  6. Вторник. Сижу на работе, читаю этот пост. Дошёл до фразы: «Чаще всего блог просматривают по вторникам в 18:00». Смотрю на часы…))

    Поздравляю с праздниками и большое спасибо за блог!

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход /  Изменить )

Google photo

Для комментария используется ваша учётная запись Google. Выход /  Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход /  Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход /  Изменить )

Connecting to %s