Эссе по курсу «Глубокое обучение»

Для тех, кто больше любит читать, чем смотреть и слушать, немного материалов по глубокому обучению…

В рамках своего курса «Глубокое обучение», который я читаю на кафедре ММП в почти полной версии («почти», поскольку всё равно не успеваю прочитать и 3/4 всего материала за 32 лекции), и часть которого читается в OzonMasters, мои слушатели подготовили расширенные конспекты лекций — «эссе» (как правило, они следуют материалу лекции, но в авторском изложении). В итоге получился неплохой сборник материалов по DL. Из минусов — во-первых, пока конспектами не покрыт большой кусок по обучению без разметки и генеративным моделям (также нет обработки звука, но эту тему я пока и не читал), семинары также в эссе не отражены. Во-вторых, качество разных эссе довольно сильно отличается, я их не правил, но некоторые содержат мелкие неточности, а иногда и грубые ошибки. Поэтому читаете на свой страх и риск! Зато другие получились очень неплохими, и по стилю оформления тоже. Выкладываю «как есть» (вдруг, кому-нибудь пригодится).

В следующем году, скорее всего, выложу видео лекций (если будем в онлайне, хочу записать через Zoom): ещё больше материала (чем в слайдах и эссе), лучше продуманного и структурированного. Также будет блок практики (основы Pytorch и примеры написания нейронок на нём).

П.С. Картинка взята отсюда. Спасибо всем студентам, принявшим участие в написании эссе, на самом деле, это два поколения ММПшников (первое писало базовую версию, второе, в основном, редактировало и дополняло), но представители второго не всегда ссылались на автора базового варианта эссе, поэтому чаще в конспектах указан один последний автор).

Эссе по курсу «Глубокое обучение»: 7 комментариев

  1. Спасибо за материалы! А можете намекнуть хотя бы где опасаться грубых ошибок? 🙂

  2. Добрый день!

    В «Борьбе с переобучением в нейронных сетях» раздел про валидацию ошибочно назван верификацией.
    Про размер батчей можно еще такое добавить. Если у нас в выборке порядка миллиона объектов, то и батч размером, скажем, 128, и батч размером 32 дадут очень плохое приближение градиента. Но во втором случае мы сделаем в 4 раза больше шагов, что может привести к лучшему результату.

    В описании Adagrad написано: «Тем не менее, это немного противоречит логике, так как модель будет дольше сходиться». Мне не понятна эта фраза. Недостаток Adagrad в том, что v_(t+1) монотонно растет, а значит, скорость обучения монотонно убывает, и мы можем остановиться раньше, чем нам хотелось бы.

    В «Сверточных нейронных сетях» в аннотации и заключении написано, что сверточные сети уступают новым архитектурам и парадигмам. Но ведь все как раз наоборот! Почти во всех новых сетях используются свертки: и в трансформерах, и в GANах.

Оставьте комментарий