Python: категориальные признаки

2016/08/032018/09/03 alexanderdyakonov кодкатегории, кодирование, признаки, программирование, pandas, python

Увидел несколько «немного неуклюжих» программ на Питоне, в которых авторы возились с категориальными признаками и решил написать небольшую заметку: как делать базовые вещи в несколько строк. Все примеры выложены на гитхабе, а ниже пояснения.

contries

Категориальные признаки называют по-разному: факторными, номинальными. Их значения определяют факт принадлежности к какой-то категории. Примеры таких признаков: пол, страна проживания, номер группы, категория товаров и т.п. Ясно, что для компьютерной обработки вместо «понятного для человека» значения (в случае страны — ‘Russia’, ‘GB’, ‘France’ и т.п.) хранят числа. Вот ниже поговорим, как эти числа получать… Некоторый обзор разных способов кодировок можно найти в моей статье.

1. Как автоматически найти все категориальные признаки

Универсального средства нет, но если перед Вами табличка «объект-признак», и Вам хочется засунуть её в какой-нибудь sklearn-овский алгоритм, то надо, по крайней мере, что-то сделать со столбцами, в которых записаны строковые значения. Также подозрения всегда вызывают столбцы с небольшим числом уникальных значений (см. функцию pandas.nuniques).

2. Как создавать новые категориальные признаки

Самый частый приём — конъюнкция. Скажем, конъюнкция двух признаков — это признак, значениями которого являются пары (значение первого признака, значение второго признака). В пакете pandas это делается до неприличия просто: значения приводятся к строковому типу и суммируются (см. рис).

3. Как кодировать

Есть простейший кодировщий sklearn.preprocessing.LabelEncoder, который каждой категории сопоставляет некоторое целое число (собственно, номер категории). Даже если бы его не было, то такую кодировку несложно написать самому с помощью функции map. Для этого предварительно задаётся словарь, в котором указывается, что и чем кодировать.

4. Dummy-кодирование

Ясно, что предыдущий метод сильно упрощает данные, фактически проецируя категориальный признак на вещественную прямую. Весь смысл категориальности теряется. Более того, появляются ложные интерпретации. Например, в примере на рис. теперь London + Kiev = Moscow, но это не свойство данных, а свойство выбранной нами кодировки. Есть простейший метод, лишённый этого недостатка, его часто называют наивным / глупым (dummy) кодированием или one-hot-кодированием. Для кодируемого категориального признака создаются N новых признаков, где N — число категорий. Каждый i-й новый признак — бинарный характеристический признак i-й категории. На рис. показана реализация с помощью sklearn.preprocessing.OneHotEncoder и «ручная» реализация этого метода (которая хороша тем, что работает с исходными строковыми признаками, но очень медленная на больших таблицах).

После one-hot-кодирования признаковая матрица «раздувается» и её хранят в sparse-формате (собственно, по умолчанию она как раз разреженная).

5. Умные способы кодирования

Когда не хотят заполонять признаковую матрицу кучей бинарных признаков, применяют кодировки, в которых категории кодируются какими-то интерпретируемыми значениями. Например, если это категория товаров в интернет-магазине, то логично её закодировать средней ценой товара. Тогда, по крайней мере, наш новый признак упорядочивает категории по дороговизне. В любом случае, делается это с помощью функции map и groupby. Кстати, даже если бы функции map не было, можно было бы обойтись выражением data[feature].apply(lambda x: dct[x]).

Самый примитивный способ кодирования — заменить каждую категорию числом входящих в неё объектов (т.е. знания других признаков вообще не нужно). Это делается в одну строчку кода: data[newfeature] = data[feature].map(data.groupby(feature).size()).

Есть методы кодировки категориального признака по значениям других категориальных признаков, см. подробнее здесь. Для реализации они используют замечательную функцию pandas.crosstab. Она имеет и самостоятельное значение, см. рис. Например, позволяет посмотреть на частоты сочетаний значений разных категориальных признаков.