Знакомство с Pandas (слайды)

Для магистров ВМК МГУ подготовил презентацию по пакету Pandas. С удивлением обнаружил, что по очень популярной среди питонистов панде совсем нет образовательных презентаций. Например, на www.slideshare.net нет ни одного материала по этому пакету (только среди обзоров пакетов для аналитиков данных). Поэтому исправил данный недостаток и закачал туда свою презенташку. Читать далее

язык R: глюки пакета ridge

Если нужна гребневая регрессия в R, то можно использовать библиотеку с подходящим названием ridge. Основная фишка реализованного в ней метода – автоматический выбор параметра регуляризации, см. статью Cule, E. and De Iorio, M. (2012) A semi-automatic method to guide the choice of ridge parameter in ridge regression. Это действительно работает, причём на моих данных очень неплохо. Но в реализации допущены просто «потрясные» баги…

Читать далее

Plotly

Самый важный совет для «визуализаторов данных»: храните не инфографику, а сами данные. Их всегда можно изобразить, причём в нужном формате. Звучит просто, но сам я часто попадался на этом, когда строил алгоритмы машинного обучения. Проводил эксперименты, изучал зависимость качества от параметров, сохранял графики… а когда потом писал статью, всё заново пересчитывал. Кстати, о том, где можно визуализировать сохранённые данные. Есть такой ресурс: https://plot.ly. Это бесплатное, простое и быстрое средство. Если зарегистрироваться, то на Вашу почту будут ещё приходить всякие забавные визуализации. А позволяет он делать такие штуки (щёлкните по графику):

Курсы валют: доллар и евро

Pandas

Чтобы в Питоне работать с данными, в которых не все признаки вещественные, приходится использовать пакет Pandas. В нём реализован тип дата-фрейм (который соответствует аналогичному в R). По сравнению с R здесь всё менее интуитивно, например, специфическая индексация элементов дата-фрейма (которую, впрочем, нетрудно освоить). Очень хороших учебных пособий по Панде нет, но на станице пакета размещено pdf-описание, в котором, в принципе, всё необходимое есть. Проще на основе описания создать себе ноутбук с подсказками основных функций. Мой лежит здесь.