Работа DS: зарплаты, занятость и желания

Подводим итоги опроса по работе аналитиков данных, который ранее запускали на телеграм-канале. Спасибо всем, кто принял участие! Было желание опросить 1000 человек, к тому же в предварительном опросе приняло участие гораздо больше, но заполнить гугл-форму для многих оказалось чуть сложнее, чем пройти один опрос в телеграме. Всё равно, получился один из самых больших опросов в сфере Data Science.

Понятно, что все данные грязные, но каждый раз удивляешься насколько. Казалось бы, в опросе нужно было ответить на несколько чётко поставленных вопросов, но тем не менее при указании зарплаты в рублях её указывали в тыс. рублей, есть подозрительные CDO с зарплатой в 30 тыс. и без подчинённых, некоторые проходили опрос несколько раз (интересно, зачем?), некоторые вместо выбора сферы деятельности «финансы» нажимали на «другое» и вбивали «finance», были люди с суммарным доходом меньше зарплаты. Из 772 анкет после предварительной очистки (ещё была очистка для анализа каждого вопроса) осталось 720. Ниже пройдёмся по основным вопросам анкеты, укажем очевидные и неожиданные находки. Ясно, что по каким-то зависимостям в данных некорректно делать вывод о реальных зависимостях (Correlation does not imply causation), но можно сверить ожидания с реальностью.

При агрегации и вычислении статистик очень хотелось использовать не слишком маленькие группы (как минимум, 10 респондентов), поэтому мы ограничились только приведёнными ниже агрегатами. Везде зарплаты указаны в тыс. руб.

География

Больше всего, конечно, респондентов было из России, всего представлено 23 страны, но многие страны имеют по одному представителю, поэтому было решено агрегировать результаты по следующим группам: РФ, ближнее зарубежье (названо exСССР — это Украина, Беларусь, Казахстан, Эстония, Узбекистан и Молдова) и «Запад» (все остальные страны, хотя формально к западной цивилизации не относится Китай, один представитель которого попал в эту группу). Такое объединение вполне согласовывалось с данными, поскольку анкеты в объединяемых странах довольно неплохо коррелировали. Несколько стран (точнее их единственные представители) были исключены из анализа, например Таджикистан, поскольку данные анкеты являлись выбросами на общем фоне.

Из интересного — довольно много представителей Беларуси (среди читателей блога их в два раза меньше украинцев), подкачал Казахстан (у меня там много знакомых, но в опросе приняло участие лишь 5 человек) и Германии (аналогично).

Распределение по странам.

По городам всё вполне предсказуемо — среди респондентов больше всего представителей Москвы и Санкт-Петербурга. Опять же, в агрегированной статистике Россия «была разбита» на представителей этих городов и все остальных (это тоже согласовывалось с данными). Довольно мало респондентов из Нижнего Новгорода и Казани (там ведь довольно много DS-ов).

Распределение по городам.

Ниже представлена основная таблица опроса — зарплаты по уровню должности и географии. Здесь указаны интервалы, ограниченные 0.2 и 0.8 квантилями, т.е. в каждой категории 60% опрошенных получали зарплаты в этих диапазонах. Поскольку некоторые группы довольно маленькие, был выбран относительно небольшой диапазон. Жирным подсвечены вилки, вычисленные по группам из не менее 10 респондентов. Из интересного — ближнее зарубежье оказалось довольно привлекательно по уровню зарплат (мне казалось, что оно проигрывает Москве). Остальное вполне прогнозируемо.

Вилки зарплат в тыс. руб. и число респондентов (в скобках).

Один из вариантов ответа на вопрос об уровне должности был «CDO», таких ответов всего несколько. Поэтому просто скажем, что у этих ребят всё хорошо: они все из России, возраст 27-38, опыт в DS 4-5 лет, человек в подчинении 30-100, зарплаты 420-520 тыс. руб (дополнительного дохода нет или они небольшой). В таблицах их указывать не будем.

Кроме вопроса о зарплате задавался вопрос про суммарный доход, если из него вычесть зарплату, получим дополнительный доход, который представлен в таблице ниже. Здесь используется некоторый вариант усечённого среднего: сначала выборка (перечень дополнительных доходов группы респондентов) клиппируется по 0.2 и 0.8 квантилям, а затем находится среднее арифметическое.

Средний доп. доход в тыс. руб.

Уровень должности

Логично предположить, что указанные уровни должностей соответствуют также разным возрастным категориям. Усечённые средние для них такие: Juniour — 23.7, Middle — 25.8, Senior — 29.2, Team Lead — 29.0, см. также следующий рис.

Распределение возраста у представителей разных уровней должности.

Ещё большая дифференциация должна быть заметна по опыту в DS: Juniour — 0.9, Middle — 2.5, Senior — 3.9, Team Lead — 4.4 , см. также следующий рис.

Здесь умышлено оставили несколько выбросов — джуны с большим опытом в DS. Если посмотреть внимательно их анкеты, то видно, что они реальные, но неадекватные (например, в ответах о прожиточном минимуме — см. дальше). Это иллюстрация, что часто если объект подозрительный — лучше его целиком убирать из выборки, корректировка одного его признака не всегда помогает.

Сфера деятельности

Ниже представлены сферы деятельности компаний респондентов.

Сфера деятельности

Если разбивать людей по должности, географии и сферам деятельности, то получаются совсем мелкие группы, поэтому ниже просто представим такой скатерплот (внимание, сейчас начнут встречаться шкалы в логарифмическом масштабе). Интересно, что 100 москвичей являлись банковскими работниками (в Питере так активно не идут в банки), на Западе в процентном отношении больше работников науки и образования. Представители телекома были только из России.

Зарплаты по сферам деятельности и географии.

Без привязки к географии вилки зарплат по отдельным сферам деятельности показаны ниже. Жирным выделены значения вычисленные по «большим» (не меньше 10 респондентов) группам. Пожалуй, можно лишь предположить, что в сфере «финансы, страхование» вилки выше.

Зарплаты по сферам деятельности и уровням должности (в скобках — число респондентов).

Человек в подчинении

Понятно, что большинство респондентов не имеют людей в подчинении, полная статистика показана ниже. Странно, но было несколько джунов с подчинёнными…

Статистика по тому, сколько людей в подчинении.
Человек в подчинении на разных уровнях должностей.

Как показано на следующем рис., на Западе можно получать большие деньги никем не командуя;) Среди людей с низкой зарплатой, но большим коллективом в подчинении (видно несколько представителей регионов РФ) есть преподаватели, которые записали своих студентов как подчинённых.

Дополнительный доход

Видна зависимость дополнительного дохода (если он есть) от зарплаты, см. следующий рис. (не забываем про логарифмический масштаб). Отметим, что изображён именно дополнительный ежемесячный доход, а не общий, и только для тех, у кого он есть. Популярный и не очень большой объём дополнительного дохода — 10 тыс. руб. в месяц (видна плотная линия точек на этом уровне).

Зависимость дополнительного дохода от зарплаты

Потребности

Очень полезным оказался вопрос о прожиточном минимуме: сколько денег нужно для жизни. Интуитивно, эта сумма зависит от возраста, точнее от образа жизни. Например, когда есть семья и дети потребности точно существенно больше. Есть корреляция между зарплатой и потребностями, см. следующий рис. Здесь пришлось очищать данные от выбросов (были ненормально маленькие и большие прожиточные минимумы).

Указанный прожиточный минимум и зарплата.

Ниже показано, как потребности распределяются по регионам. Здесь используется уже знакомый вариант усечённого среднего: сначала выборка клиппируется по 0.2 и 0.8 квантилям, а затем находится среднее арифметическое. Медианы по соответствующим регионам равны 80, 70, 100, 100 и 265 тыс. рублей.

Если поделить потребность на общий доход, можно получить некоторый «коэффициент денежного счастья» — какая доля дохода обеспечивает прожиточный минимум. Ниже показаны усечённые средние этих коэффициентов для разных локаций и уровней должностей. Наиболее счастливы тимлиды в ближайшем зарубежье (но напомним, что их всего 6, поэтому статистики мало), а вот мидлу в дальнем зарубежье еле-еле хватает на жизнь.

Также с возрастом потребности увеличиваются, что и понятно, см. рис.:

Можно сравнить эту картинку с такой же, но в которой учитывается не возраст, а стаж в DS:

Плотности зарплаты, доходов и потребностей показаны ниже (здесь значения предварительно клиппированы — этим объясняется правая граница в 1 млн.).

Возраст и опыт

В опросе был вопрос про стаж в DS. Тут, к сожалению, было много неадекватных ответов. Например, число лет в DS = возрасту, более-менее почищенные данные визуализированы ниже.

Возраст и стаж в DS респондентов.

Должность

Был вопрос и про формальное название должности, но тут возникла проблема в том, что он был не совсем удачно сформулирован. Были даны термины из которых нужно было «собрать» свою должность, большинство отмечало почти все термины… Но общий вывод такой: зарплаты больше у инженеров (Engineer), которых примерно 47% из опрошенных.

Дополнительная деятельность

Ниже показано, кто и чем занимается помимо работы, указано сколько человек этим занимается (доля от числа опрошенных), а также их зарплаты, общий доход и «хотелки» (прожиточный минимум)… Везде приводится указанное выше усечённое среднее по соответствующей группе. Преподают в каких-то организациях (не в вузах) и выступают на митапах те, у кого и так неплохие зарплаты. Меньше всего получают занятые наукой, и им же меньше всего надо денег для нормальной жизни. Дополнительный доход больше у тех, кто работает на нескольких работах. Забавно, что повышенные ожидания к доходу у тех, кто занимается open source.

Можно посмотреть, как коррелируют эти категории. Понятно, что занимаются наукой, пишут диссертацию и преподают обычно одновременно. Организуют конференции и на них выступают тоже.

О себе

Теперь посмотрим, что респонденты сообщили о себе. Кэглеров — 20%, но далеко не все из них успешны на Кэгле. Заметьте, у обладателей золотых медалей самая большая средняя зарплата! Ещё интересно, что у обладателей PhD она тоже большая (хотя и не настолько). Ясно, что хорошо быть известным, хотя таковых всего 2% опрошенных (у них больше всего дополнительный и суммарный доход). Большие ожидания по доходам у выпускников платных курсов, причём они расходятся с действительностью (зарплаты небольшие). Отметим, что средний возраст таких выпускников — 29.7 лет. Здесь конечно, нужно было отделить хорошие платные курсы от плохих, моя вина, что это не было учтено. Курсеру смотрят многие — 65% опрошенных, а выпускники бесплатных хороших программ (ШАД, OzonMasters, MADE) оказались довольно скромными в требованиях к прожиточному минимуму, их средний возраст — 25.6. Больше всего нужно писателям блогов и владельцам телеграм-каналов. Так вот что заставляет их этим заниматься — жажда денег!

И опять смотрим на корреляции. Понятно, что есть группа людей, которые участвуют во всех соревнованиях и хакатонах. Интересна высокая корреляция между членством в ODS и наличием github-профиля. Известность коррелирует с золотом на Кэгле и (сюрприз!) наличием PhD. Кстати, самый популярный профиль в ответах (22 человека): «у меня математическое / техническое образование;полностью прошёл несколько курсов на Курсере; есть гитхаб-профиль; являюсь членом ODS».

Чтобы от «мёртвых» коэффициентов корреляции подойти ближе к данным, посмотрим на связку «известность», «PhD», «золото кэгла» — следующая табл. Только два человека имеют одновременно PhD и золото, оба они известны (ну, по их версии).

Как попали на работу

Чаще всего респонденты указывали следующие причины выбора конкретного места работы: адекватность собеседования и обещания на собеседованиях. Тут, правда, надо учитывать, что указанные причины часто определяются этапом карьеры, например на следующем рис. белая строка соответствует причине «понравилось на стажировке», понятно, что это начинающие в DS, поэтому у них и зарплата ниже. А те, кого нашли HR-ы, уже опытнее и получают больше.

О компании

Интересно, что при опросе о компании довольно большой процент респондентов отмечали тот или иной пункт, примерно у половины много работы, также примерно у половины постоянный приток задач, сильный коллектив и т.п. Любопытно, что чем больше плюшек даёт компания, тем больше потребности у людей, ну или наоборот, люди с потребностями ищут плюшки (мы не можем установить, есть ли следствие и в какую сторону).

Из корреляций можно попробовать сделать много гипотез. Посмотрите, например, что коррелирует с перспективами роста. Думаю, тут всё понятно. Странно, но у «модного направления» и «интересных задач» корреляция меньше ожидаемой. Известность компании антикоррелирует с удалёнкой. Из смешного и грустного: при ответе на этот вопрос есть очень печальные профили, например, 6 человек отметили, что у них много работы и не отметили больше ничего (т.е. неадекватный начальник, нет плюшек, неинтересные задачи и т.п.). И личная драма — автор с грустью подумал, как плохо работать в МГУ… кроме «известной компании» нечего отметить:(

С чем работают

Табличные данные не теряют актуальности — почти 70% опрошенных занимаются ими, но и денег за них платят меньше. Выгоднее быть RL-щиком. И присмотритесь к графам — совокупный доход у «графофилов» больше всех.

Интересно, что те, кто работает с табличками, вряд ли связан со звуком или видео, зато может также заниматься временными рядами и логами пользователей. Есть также большое пересечение специалистов по изображениям и видео. И есть непохожий на остальных мир RL-щиков.

Что делают на работе

И последний вопрос про то, что люди делают на работе. Чаще «пилят модельки», реже «пишут статьи». Меньше получают те, кто «строят аналитику», а больше те, кто сидит «на совещаниях». Потребности выше у тех, кто рисует презентации…

Самый популярный здесь профиль (22 человека) — «Пилю модельки; Читаю статьи; Пишу пайплайны; Выкатываю в прод», примерно столько же (21) делают всё это и ещё ходят по совещаниям.

Что не было сделано

Умышлено был исключён вопрос о поле, т.к. он увеличивал шансы на деанонимизацию. Было желание сделать опрос, который бы люди проходили не боясь деанонимизации.

Как уже отмечалось выше, немного неудачно был сформулирован вопрос о названии должности (впрочем, в названиях, в принципе, есть неразбериха).

Все замечания, предложения и пожелания можно оставить в комментариях. Могу что-то добавить в этот отчёт, если мне это покажется разумным. Ещё раз спасибо всем респондентам!

Работа DS: зарплаты, занятость и желания: 14 комментариев

  1. Люди работающие с графами, срочно свяжитесь со мной!
    На самом деле просто хочу выяснить, где (в какой области и компаниях) действительно применяют графы в данный момент

    • Я думаю, это может быть связано с рекомендательными системами и построением социальных графов: соцсеточки, e-commerce, банки. телекомы (графы транзакций) и т.д. (то есть почти везде)

      • Тут скорее шутка в том, что графы- очень общий подход для совсем разных доменов. Но хочется знать, где за это прямо сейчас платят деньги, а значит подходы вполне себе работают

    • Там где я работал анализируют программы при помощи графовых моделей

    • Люди, активно занимающиеся графами, это часто спецы, плотно работающие одновременно и с DS задачами, и с технологиями больших данных. Привет Spark и Scala и вот такое.
      Ну и привет алгоритмические собеседования, если идешь в место, где этим занимаются в бизнес целях

      Это вариант 1. Вариант 2: над этими самыми графами надо делать что то хитрое. Строить нейронки. Решать непростые задачи дискретной оптимизации. Прикручивать RL. Или немного уметь в протеиномику. Смотря какая компания

      То есть важно понимать вот что:
      работа с графами по ряду причин это технически сложные или нетиповые задачи, где и помимо графов много чего другого. И привлекают к таким задачам обычно не джунов.
      То есть этот тип задач почти гарантированно коррелирует с квалификацией. Иначе: это не графы такая золотая тема, просто вместе с графами часто возникают задачи, где нужны или дорогие ит скиллы, или экзотические сочетания ds компетенций помимо графов, условно, и где задействованы сеньеры.
      Ну и последнее — без гигантской клиентской базы или чего то другого гигантского, такие задачи редко возникают, да и то в биотехе, условно. То есть такого рода задачи характерны скорее для компаний, у которых есть деньги

  2. «Здесь указаны интервалы, ограниченные 0.2 и 0.8 квантилями», — хорошо бы для полноты изложения привести отдельно табличку/график по самым верхним квантилям.

  3. Доброго времени суток!

    Александр, Спасибо за интересную информацию!

    Мне кажется, что сотрудников, занятых в той или иной степени на позиции научных сотрудников, можно с большой натяжкой отнести к данному направлению (DS). Однако, стоит оговориться, что не все из них работают с более-менее «большими» данными (в основном таблицы). То, что большей части из них требуется строить (предсказательные / классификационные) модели и с помощью них подтверждать / отвергать гипотезы — это факт. Рисовать графики, обрабатывать табличные данные… Другой вопрос: с помощью какого «софта» они это делают: вот это уже СОВЕРШЕННО ДРУГОЙ ВОПРОС. Если это поломанная пиратская Statistica / SPSS и проч. Это одна ситуация. Если научный сотрудник пользуется R, Python и т.д. Это уже другая ситуация. Здесь уже определенное влияние оказывает культура уважительного / неуважительного отношения к собственности (в т.ч. интеллектуальной), что и играет ключевую роль в различиях между техническими навыками научных сотрудников у нас и за рубежом. А также очень важными является поле научной деятельности. В физ/мат направлении доля «кодеров» среди ученых довольно высока по сравнению (к примеру) с мед / био направленностью.

    Конечно же если ученый в своей профессиональной деятельности привык использовать эксель для обработки данных, то его уже очень сложно «пересадить на Пайтон» (а учитывая, дефицит времени, мотивации и прочих ресурсов — практически невозможно).

    Было бы интересно эту тему раскрыть или слегка обсудить.

    С уважением,
    Михаил Т.

  4. А можно в обезличенном виде выложить данные, самим аналитику сделать?))

  5. Александр, большое спасибо за анализ, было очень интересно! Идея с «индексом денежного счастья» прикольная, хотя и очевидная.

    Часто спрашивают про переход в DS и в какую сферу внутри DS — буду ссылаться на эту статью.

    Ещё интересно было бы сделать аналогичный анализ про переходы между другими отраслями (IT и не только) и DS — типа сколько людей пытались, откуда переходили, сколько перешли успешно/неуспешно, сколько времени занял переход, сколько людей в процессе, сколько разочаровалось, какие факторы теперь радуют больше/меньше по сравнению с предыдущей отраслью.

    Два маленьких предложения по презентации:
    — отсортировать таблички либо по частоте («доля занятых»), либо по какому-нибудь агрегату строки типа суммарного дохода
    — хитмапы лучше пересортировывать по сходству — seaborn.clustermap умеет делать красиво

    Кажется, что так будет проще воспринимать закономерности «на глаз».

    • Здравствуйте, спасибо!
      Пока сортировки нет — всё перечислено в том порядке, как было в опросе. Это может вскрыть какие-то возможные косяки этого порядка.

      Про переходы в DS — тут сложно собрать статистику, например, людей с неуспешными переходами (например, которые в итоге не перешли в DS).

  6. Добрый день,
    У меня в данных есть разные, но при этом сильно скоррелированные фичи (т.е. коэффициент корреляции между ними больше 0.5). Я не хочу «выкидывать» часть фичей, поскольку каждая фича несет в том числе самостоятельный компонент, которого нет в оставшихся данных.
    Скажите, пожалуйста, какие последствия это будет иметь для градиентного бустинга? Какие есть методики, чтобы избежать неблагоприятных последствий?

Добавить комментарий для acalve Отменить ответ

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход /  Изменить )

Google photo

Для комментария используется ваша учётная запись Google. Выход /  Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход /  Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход /  Изменить )

Connecting to %s