Аугментация для текстов (Text Augmentation)

Похоже, на русском языке нет полного обзора по современным методам аугментации при работе с текстами, поэтому появился этот… На английском языке есть несколько очень хороших, но здесь удалось осветить более свежие научные работы. Целевая аудитория обзора — начинающие в NLP.

Читать далее

Самообучение (Self-Supervision)

Сейчас расскажем о самообучении – способе многому научить модель без ручной разметки и, в некотором смысле, отказаться от глубокого обучения при настройке модели для решения нужной Вам задачи. Материал требует среднего уровня подготовки, даётся много ссылок на оригинальные работы.

SL

Читать далее

Проблема калибровки уверенности

Удивительно, но нигде нет хорошей обзорной работы по всем методам калибровки модели — процесса в результате которого «чёрные ящики» не просто качественно решают задачу классификации, но ещё и правильно оценивают свою уверенность в выданном ответе. Этот обзор не начального уровня — необходимо представлять, как работают и используются алгоритмы классификации, хотя автор существенно упростил изложение, например, обошёлся без условных вероятностей в определениях (из-за чего немного пострадала строгость изложения).

calibration2

Читать далее

Токенизация на подслова (Subword Tokenization)

Эта заметка для более продвинутых в ML (в отличие от основной массы предыдущих постов): для тех, кто постигает таинства анализа текстов, поскольку речь пойдёт о предобработке текстовых данных, которая может улучшить качество в некоторых задачах.

subword

Читать далее

Нейронные обыкновенные дифференциальные уравнения

На конференции NeurIPS 2018 одной из лучших работ была признана статья «Neural Ordinary Differential Equations». Это нестандартный пост для блога, который, впрочем, может положить начало традиции… я выкладываю несколько обзоров на русском языке этой статьи и прошу читателей помочь выбрать мне лучшие.

ODE

Читать далее

Визуализации

В рамках университетского курса даю своим студентам несколько заданий по визуализации. Первое (простое) — найти интересные визуализации в Интернете (не обязательно связанные с анализом данных) и объяснить почему они интересны. Второе (сложное) — взять реальные данные с платформы Kaggle и принять там участие в конкурсе по визуализации (там можно в разделе Datasets создавать т.н. Kernels, за которые могут голосовать другие участники). Теперь, что из этого получилось в этом году…

friends
Рис. взят с сайта http://www.facebookstories.com

Читать далее

Geek Picnic 2016

Сегодня побывал на фестивале о науке, технологиях и искусстве Geek Picnic. Он ещё будет проходить завтра, а потом в Питере. Поэтому для тех, кто думает, ходить или нет: мой фотоотчёт.

7

Читать далее

Отзывы на книги

На каникулах познакомился с тремя новыми книгами — публикую краткие отзывы.

  • Б. Фрэнкс «Революция в аналитике»
  • С. Кранц «Изменчивая природа математического доказательства»

  • К.А. Пиковер «Великая математика»

Читать далее

Лучшая графика 2015

Любители прекрасного, посмотрите самые лучшие визуализации уходящего года! Очень интересные и красивые, причём конкурс проходил в разных номинациях: визуализация данных, инфографика, интерактивная графика, графика в бизнес-проектах, в журналистике, студенческие работы, мобильные картинки, командные проекты, графика в коммерческом ПО. Читать далее