Data Science Contest Сбербанка

Недавно стартовал новый конкурс по анализу данных. В помощь новичкам, которые захотят поиграться его данными, вот презентация, которую я обсуждал со своими магистрами на прошлом занятии, а вот код, с помощью которого получены все графики. Кстати, большие ipynb-файлы с гитхаба лучше смотреть с помощью nbviewer, например так.

sberbank

Питон (Python)

Сейчас практически все, кто занимается анализом малых данных, делают это с помощью Питона… а ведь ещё 5 лет назад не было пакетов типа scikit-learn и единственной средой с реализованными бустингом, случайным лесом и т.п. оставался R (+ RStudio, т.к. никаких ноутбуков тоже не было). Или приходилось реализовывать все алгоритмы «с нуля», что я и делал в том же Matlab-е. Ещё были разные программки на С/С++ типа libSVM, SVMlight

%d0%bf%d0%b8%d1%82%d0%be%d0%bd

Читать далее

Теория нечётких множеств (ТНЧ)

Продолжаю выкладывать некоторые слайды, которые я делаю для магистров нашей кафедры. Сегодня — по нечётким множествам (fuzzy sets). Их ещё называют размытыми и пушистыми;) Читать далее

Знакомство с Pandas (слайды)

Для магистров ВМК МГУ подготовил презентацию по пакету Pandas. С удивлением обнаружил, что по очень популярной среди питонистов панде совсем нет образовательных презентаций. Например, на www.slideshare.net нет ни одного материала по этому пакету (только среди обзоров пакетов для аналитиков данных). Поэтому исправил данный недостаток и закачал туда свою презенташку. Читать далее

Мой спецсем: анализ твитов и разбиение графа

Спецсеминар для моих студентов и аспирантов будет проходить по средам в 607 ауд. ВМК МГУ, начало в 18:10. Завтра (16.09.2015) будет Читать далее

Интересные презентации

Просмотрел всевозможные презентации по спортивной аналитике, машинному обучению и анализу данных. Вот наиболее понравившиеся (в списке есть как уже давно известные, так и новые). Спасибо их авторам за ценную информацию! Читать далее