Нематематика в анализе данных

Сегодня поговорим о нескольких «околоаналитических» темах, которые обычно не затрагивают в учебных курсах по аналитике (бизнес- или ML-), поскольку они совсем не о математике, а больше о психологии. Но их знание не менее важно, чем знание современных методов решения задач, поскольку часто с «хорошим» решением потом нечего делать.

51bMpZhF7ML._SX355_

Самоотменяющийся прогноз

Очень часто в долгосрочной перспективе невозможно строить точный прогноз по извечной философской проблеме: если мы знаем будущее, то можем его «исправить». Пример: если какой-то сервис предсказывает загруженность дорог через «дельта Т» и этим сервисом пользуется достаточное число водителей, то, доверяясь ему и выбирая более свободные дороги, они создают на них пробки, разгружая дороги, на которых эти пробки прогнозировались. Понятно, что при такой проблеме в идеале «система прогнозирования» должна выдавать не столько прогноз, сколько ответ задачи равномерной загрузки дорог.

Ещё пример: если есть система качественного прогнозирования эпидемий, то предсказанная в каком-то районе эпидемия гриппа может «отмениться», поскольку жители района, доверившись прогнозу, перестают водить детей в детсад и школу, принимают профилактические средства, ограничивают присутствие в местах большого скопления людей, надевают повязки и т.п. Скорее всего, проблема самоотменяющегося прогноза стала основной причиной закрытия проекта Google Flu Trends, в котором Гугл как раз прогнозировал эпидемии гриппа.

jams.jpg

Самосбывающийся прогноз

Здесь наоборот: независимо от прогноза он обречён сбыться. Например, если авторитетный источник даст прогноз, что акции компании N недооценены и в ближайшие полгода существенно вырастут, то большое число людей побежит скупать эти акции, что действительно приведёт к росту. Аналогично в моде: прогноз «красный цвет станет модным» побуждает модельные агентства заранее скупать разнообразные ткани красного цвета, чтобы не столкнуться потом с их дефицитом. А потом новые модели одежды автоматически будут преимущественно красного цвета, поскольку склады завалены красной тканью…

В анализе данных это можно наблюдать сплошь и рядом. Например, пусть мы задумали сделать систему прогноза популярности товаров в недалёком будущем, чтобы выводить их на главной странице. Такая система заведомо обречена на успех (в том смысле, что, скорее всего, будет угадывать популярные), поскольку товары с главной страницы чаще просматривают. Что мы чаще показываем, то и чаще смотрят и, как показывает практика, чаще покупают;)

weather_forecast.jpg

Эффект новизны

Ещё из мира рекомендаций… Пусть у нас есть плохая рекомендательная система товаров: её рекомендации однообразны, например, купившему детские товары рекомендуют только памперсы). Мы разработали другую плохую (!) рекомендательную систему: она тоже однообразная, теперь описанному человеку рекомендуют только детское питание. Мы организуем A/B-тестирование, т.е. делим пользователей на две группы. Первой показываем старые рекомендации, а второй – новые. И, о чудо! Новая формально по тесту лучше, поскольку вторая группа пользователей больше покупает. Но дело, конечно, не в том, что она лучше угадывает интересы пользователей, а в том, что многие пользователи впервые увидели новые для себя релевантные товары. Интересно, что для A/B-тестов (и других способов тестирования, например, основанных на обучении с подкреплением) есть много математических рекомендаций и теорий, но практически никогда не учитываются подобные «психологические эффекты», которые завышают (или занижают) качество.

recsys.jpg

Футбольный оракул

Иногда этот пример приводят, в том числе, как иллюстрацию теоремы о бесплатном сыре, понятия надёжности алгоритма и т.п. По-простому, это иллюстрация, почему даже точному прогнозу не следует верить. Предположим, что идёт чемпионат мира по футболу. Перед 1/8 финала Вы выбираете одну из предстоящих игр (играют А и B), звоните 8 человекам и говорите, что точно знаете, кто победит: 4м человекам Вы говорите, что команда A, а оставшимся 4 – «B». Теперь впереди 1/4 финала. Вы действуете по отработанной схеме: выбираете матч, звоните тем 4м, которым Вы сказали верный результат в прошлый раз, предсказываете победителя: половине называете одну команду, другой – вторую. Перед полуфиналом ситуация повторяется. Впереди финал! Вы звоните человеку, которому до этого три раза правильно предсказывали исход будущего поединка. Даже если он и думал до этого, что Вы сумасшедший, то теперь он точно поверит Вам! Не может же ошибаться человек, который три раза подряд угадал (в том числе, возможно, сенсационные исходы)? Кстати, начать можно с 1/16 финала и ещё распараллелить процесс, например изначально обзвонить 16*10 = 160 человек (это не так сложно), зато к финалу у нас гарантированно будет 10 человек, которым Вы 4 раза безошибочно предсказывали исходы предстоящих поединков. На подобном эффекте основаны некоторые способы разводки…

Для аналитика это означает, что в случае огромного (!) числа экспериментов (или специально организованных экспериментов) найдётся тот, в котором всё получилось, но не потому, что всё правильно делалось, а случайно. В очень сложной параметрической модели алгоритмов найдётся алгоритм, который покажет высокое качество на обучении, но не потому, что он хороший, а случайно и т.д.

paul_octopus.jpg

Невозвратные издержки (sunk costs)

Опять начнём с примера. Вы сидите в хорошем ресторане, Вам подали последнее блюдо, Вы уже сыты, но всё равно пытаетесь его доесть. Вы думаете: оно такое дорогое, надо обязательно доесть — не выбрасывать же столько денег на ветер… Дело в том, что Вы уже потратили эти деньги: блюдо будет в чеке и Вы заплатите за него независимо от того, доедите Вы его или нет. Доедая, Вы только сделаете себе хуже: ощущение приятной сытости сменится ощущением переедания.

Какая связь принципа невозвратных издержек с анализом данных? Например, в системе прогнозирования спроса часто пытаются учесть, что закупить на склад на 1 холодильник больше (чем нужно) хуже, чем на 1 утюг, поскольку последний занимает меньше места. Часто, на самом деле, всё зависит от самого склада. Он уже есть (мы его купили или арендовали), т.е. потратили деньги. Часто места в нём уже распланированы под товары разных габаритов, поэтому холодильник не претендует на место утюга и наоборот. Часто экономия в числе фактически занимаемых полок не влияет на затраты: на складе нужно проводить уборку, отапливать помещение, организовывать процедуры выгрузки, хранения, погрузки товаров и охраны склада. Поэтому действительно полезная модель не должна учитывать «стоимости хранения конкретных товаров», а лишь те затраты, которые перевалят через невозвратные издержки (деньги, которые мы уже заплатили или всё равно заплатим).

Подобные примеры можно привести практически везде, где есть взаимодействия с пользователями, использование ресурсов и т.п. Всегда есть средства, которые мы потратим в любом случае. И всегда почему-то их пытаются учесть в задаче оптимизации, хотя в каждой конкретной задаче оптимизировать разумнее то, что потратим сверх этого.

goods_stock.jpg

Преимущественное присоединение

По-простому, это эффект «богатые становятся богаче». Пусть есть новый (!) ресурс просмотра видеороликов с лентой самых популярных видяшек (по статистике просмотров). Тогда видео из ленты станут просматривать ещё чаще, поскольку их превьюшки выставлены на всеобщее обозрение.

Это известный социальный эффект, такая же природа популярности (или «звёздности») у людей. Самое интересное, что подобная популярность случайна. Был проведён эксперимент: запущено несколько сайтов по прослушиванию музыки с лентами популярных композиций и без. Конечно, были какие-то композиции, которые пользовались популярностью на всех сайтах. Но разнообразие среди популярных композиций было существенно больше на сайтах с лентами(!). Почти всегда на сайте с лентой какая-то композиция становилась «незаслуженно популярной»: она просто когда-то попала в ленту и там долго оставалась… в лентах других сайтов её не было.

музыка.png

Ссылки

 

 

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход /  Изменить )

Google photo

Для комментария используется ваша учётная запись Google. Выход /  Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход /  Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход /  Изменить )

Connecting to %s