Задачка: где рождается больше мальчиков

В городе два роддома — большой и маленький. В определенный день в одном из этих роддомов среди новорожденных оказывается 60% мальчиков. В каком роддоме это скорее всего могло бы произойти?

Попробуйте решить эту задачу, а под катом я покажу, что ответ, который дают лучшие статистики и экономисты в своих умных книжках, не совсем верный…

boys.jpg

Предыстория

Сначала немного об истории задачи. В 1971 году психологи Даниель Канеман и Амос Тверски провели эксперимент: правильно ли мы понимаем вероятности «естественных событий» (которые встречаются в повседневной жизни). Одна из задач, которую они придумали, звучала так, как описано выше. Эта задача известна для специалистов: есть в книге Нисбетта «Мозгоускорители», Талеба «Чёрный лебедь», Ковела «Биржевая торговля по трендам», на различных форумах, её дают на собеседованиях. Правильный ответ (по мнению специалистов) такой: в маленькой, поскольку в маленьких выборках более вероятны отклонения от среднего. А давайте разберёмся, правы ли ведущий экономист, известный статистик и комментаторы на форумах?

Начинаем разбираться… монетки

Если бы задача формулировалась так: один мальчик подбросил монету 10 раз, а второй 100 раз, у какого мальчика более вероятно выпало более 60% (от числа его бросков) орлов, то тут вопросов бы не было и названный ответ абсолютно верный. Если спросить «у кого более вероятно ровно 60% орлов?», то это немного сбивает с толку, но всё равно логика ответа верна: у того, кто меньше бросил. Вот соответствующие вероятности:

formula.png

Как видим, при стократном подбрасывании монеты шансы получить 60% орлов почти в 20 раз меньше, чем при десятикратном! На рис.1 показаны вероятности получить различные проценты орлов.

probs5.png
Рис. 1. Распределение вероятности выбросить определённый процент орлов.

Здесь самое интересное! При 10-кратном подбрасывании любой процент: 0, 10, 20, …, 100 получить более вероятно, чем при 100-кратном. Но при 100-кратном можно получить, скажем, ровно 51%, что совсем невозможно при малом числе бросков. В том числе, из-за того, что вероятность «размазывается» по большему потенциальному числу исходов, подбрасывающему 100 раз сложнее получить ровно 60% орлов.

Вернёмся к роддомам

Предыдущий раздел мы начали со слов «Если бы задача формулировалась так…», но у нас-то задача не с идеальными монетами, а с реальными роддомами. Более того, в ней описана конкретная ситуация. В задаче есть особенности!

Первая особенность: в городе два роддома — большой и маленький. Формалисты могут спорить, что значит большой (по высоте, площади и т.п.), но понятно, что авторы задачи имеют в виду, что в нём (по крайне мере, в среднем) рождается больше детей… Но вот с чем сложнее спорить: мы различаем эти роддома! Например, если в одном роддоме 9 палат, а в другом 10, то вряд ли их назовут маленьким и большим, а если в одном 5, во втором 10, то да. Таким образом, первая возможная формализация этой постановки: среднее число рождающихся в одном роддоме заметно больше, чем во втором! Казалось бы (из предыдущего раздела), это ещё больше убеждает нас в правильности классического решения, но не будем спешить.

Ещё мы называем что-то «большим» и «малым», когда это действительно выделяется на фоне остальных объектов. Например,

в одной компании работают два программиста, один получает много, второй - мало.

Скорее всего, это не означает, что один получает существенно больше другого, поскольку один может получать «нормально», а второй — «много». Такие фразы обычно говорят, когда у одного объективно «маленькая зарплата для программиста», а у второго «большая зарплата для программиста». Поэтому вторая возможная формализация постановки задачи: по среднему числу рождающихся один роддом находится до 1й квартили среди роддомов страны (т.е. входит в 25% самых маленьких), а второй после 3й (т.е. входит в 25% самых больших). Проценты могут быть и другими, но это больше соотносится с тем, что люди обычно называют «большим» и «малым» (а также «молодым» и «старым», «высоким» и «низким» и т.д.).

Ещё отметим одну неприятную особенность задачи: «в городе два роддома» означает, что их ровно два! Попробуйте сходу назвать хотя бы один город с двумя роддомами (мы к этому позже ещё вернёмся).

Вторая особенность. Сколько обычно рождается в роддомах детей? Здесь многое зависит от того, что называть роддомом. Есть

  • родильные отделения при больницах (где-то до 4-5 в среднем родов в день),
  • родильные дома (большой разброс: от 5 до 15),
  • перинатальные центры (как правило, больше 10, может быть и больше 20).

Вот, например, статистика по роддомам в Киеве (см. картинку). Центр репродуктивной и перинатальной медицины в простонародье обычно называют роддомом. В нём в среднем рождается 3 младенца в день (при вычислении среднего надо учитывать, что роддома закрываются «на мойку»). Перинатальный центр также можно назвать роддомом — в среднем больше 18 младенцев в день. Как Вы думаете, где более вероятно родится 60% младенцев?

Если всё-таки называть роддомами заведения, которые так и называются «Роддом №n», то разница между самым крупным и маленьким будет меньше: (~11 и 15 детей в день). Обратим внимание, что в книге Талеба переводчики написали в формулировке задачи «в больнице», поскольку на Западе детей рожают в «Hospital», у нас же из-за обилия терминов, как мы увидим дальше, ответ может зависеть от перевода.

Роддома отдельных российских городов сильно различаются по числу родившихся, например, в Сургутском роддоме за 2017 год родилось почти 7000 малышей (около 20 в день, 50.9% мальчиков), в Анапском роддоме — 2207 (~6.45 в день), а в моём родном городе Ивантеевка (во всём городе!) — около 1000 (~ 3 в день, 51.2%).

По мнению специалистов в «нормальном» роддоме должно проводиться минимум 10 родов (чтобы персонал не терял квалицикацию), но большинство роддомов в России «недозагружены» (это опять к вопросу, какой называть большим и малым). Найти статистику именно по роддомам очень сложно, чуть проще — по ЗАГСам, но число зарегистированных младенцев может немного отличаться от родившихся (пример в Анапе — 2207 и 2606). Кроме того, в больших городах несколько роддомов, может быть несколько ЗАГСов, ну а «подневной статистики» нет вообще.

Так называемых, «открытых данных» в России почти нет (у нас только про них говорят и «пилят…»), но в мире есть, вот, например, статистика по роддомам Великобритании. В самом большом роддоме за день рождается в среднем 17 детей. В самом крупном госпитале Шотландии — 18.9, в некоторых госпиталях за год может быть меньше 20 родов (и таких госпиталей, кстати, более 25%). В любом случае, число родившихся в день — не большое число (от 1 до 30)!

Третья особенность. Нам сообщают, что ровно 60% мальчиков! Предположим, что в маленьком роддоме рождается менее 8 детей в день, а в большом — больше. 60% от числа родившихся в маленьком роддоме будет целым числом только если родилось ровно 5 малышей. В большом больше вариантов: 10, 15, 20. Да, в маленьких выборках более вероятны отклонения от среднего, но в этой задаче есть ещё и ограничения на размеры выборок, при которых 60% мальчик можно родить! Посмотрите на рис. 1 и скажите: а если бы мы спросили про 61% мальчиков, в каком роддоме его вероятнее наблюдать? Конечно в большом! Ведь в нём должно за день родиться, как минимум, 100 детей. Можно ли роддом со 100 роженицами назвать маленьким?!

Самое главное. Как только математическую задачу мы формулируем в терминах каких-то реальных событий, большую роль начинают играть особенности этих событий! Задача перестаёт быть модельной и становится реальной. Например, я взял некоторую статистику по рождаемости в Англии и Уэльсе. Вот по годам процент мальчиков среди «мертворождённых» (простите за специфику данных, но тут видны интересные особенности).

p1.png
Рис. 2. Процент мальчиков среди мертворождённых в Англии и Уэльсе.

Виден даже некоторый тренд: раньше при родах умирало чуть больше мальчиков, чем сейчас. Как Вы думаете, когда умирало малышей больше? По логике классиков — в последние годы, ведь здесь отклонения от среднего меньше. Однако, взглянем на правильный ответ:

p2
Рис. 3. Число мертворождённых в Англии и Уэльсе.

До 1938 года в Англии и Уэльсе умирало более 25000 младенцев в год, мальчиков среди них было около 55%, в последние годы — менее 5000, мальчиков — менее 53%. Таким образом, логика «больше выборка — меньше отклонения» здесь не работает! И любой медик вам объяснит почему.

Кто-то может возразить, что я специально взял пример, в котором число рождённых и процент мальчиков являются зависимыми величинами — да, это правда, но это свойство настоящих данных. Кто сказал, что такой зависимости нет в исходной задаче? Если в городе два роддома, совсем различающиеся по размерам, неужели контингент рожениц в них одинаковый? А не связаны ли особенности течения беременности или социальный статус роженицы с вероятностью родить мальчика? Например, во многих крупных городах (как правило, республиканских центрах) есть отдельные роддомы для каких-то специальных случаев (сердечно-сосудистые заболевания матери, несовпадение резус-факторов и т.п.). Часто это и объясняет, зачем в городе столько роддомов. Как видим, погружение модельной задачи в реальную жизнь провоцирует много вопросов…

Чтобы быть объективным, отмечу, что для статистики новорождённых в Англии и Уэльсе логика классиков работает, см. рис. 4, но здесь много других интересных моментов. Если Вы вдруг на рис. 4 разглядите синусоиду, то очень удивитесь, что процент мальчиков так меняется;)  Кстати, процент мальчиков последние годы достаточно стабилен! Но здесь он вычислен для достаточно большой выборки: более 600000 родов в год.

p3.png
Рис. 4. Процент мальчиков среди новорождённых в Англии и Уэльсе.
p4.png
Рис. 5. Число новорождённых в Англии и Уэльсе.

Покопавшись в открытых данных можно много чего ещё «нарыть», например, что внебрачные дети с большей вероятностью являются мальчиками. В США самый низкий процент мальчиков рождается у негров: 50.8%, а самый высокий — у азиатоамериканцев: 51.5%. Кстати, для «национальных групп» логика классиков «больше выборка — меньше отклонение от среднего» опять не проходит по понятным причинам (у отдельных национальностей и рас, стабильно проживающих в определённых географических условиях, свои средние проценты рождающихся мальчиков).

А теперь численные эксперименты…

Очень сложно было найти реальный город, который удовлетворял бы условиям задачи, в котором было бы ровно 2 роддома: большой и маленький, по которым была бы хоть какая-то доступная статистика… Есть город Астрахань, описания роддомов можно найти в этой новостиэтой), в нём есть

  • областной перинатальный центр Александро-Мариинской областной клинической больницы
  • городской клинический родильный дом.

В первом за год рождается ~ 3500-3884 (в среднем 11 в день), вряд ли его, правда, можно назвать «маленьким» роддомом, всё-таки «областной центр», но формально в 2 раза меньше, чем первый, в котором рождается ~ 7755-8682 малышей (в среднем 22-24.5 в день). Для полноты картины отметим, что в Астрахани есть ещё клиника Медиал (теоретически можно родить и там), но вряд ли её можно назвать «роддомом» (частные клиники в народе так обычно не называют). Итак, мы нашли город, в котором два роддома, правда, оба большие.

Проведём численный эксперимент, используя доступную информацию о найденных роддомах. Число рождающихся каждый день промоделируем распределением Пуассона, см. рис. 6.

birth01c.png
Рис. 6. Вероятности принять конкретное число родов в день

 

Теперь рассмотрим, как выглядит плотность распределения процента родившихся мальчиков, см. рис. 7 и его увеличенную версию — рис. 8.

birth02c.png
Рис. 7. Плотность распределения процента мальчиков по роддомам.
birth03c.png
Рис. 8. Плотность распределения процента мальчиков по роддомам.

Да, всё-таки более вероятно родиться 60% мальчикам в «маленьком» роддоме. Правда, эта вероятность всего почти в 2 раза выше, а не в 20, как в задаче с монетками. Ровно половина мальчиков также чаще рождается в маленьком роддоме, а вот 55% — в 10 раз чаще рождается в большом!

birth04c.png

Вместо экспоненциальных распределений можно использовать и другие семейства. К сожалению, ни в каких открытых источниках нет статистики родов по дням в отдельных роддомах, чтобы понять, какое распределение использовать…

Ещё ровно два роддома в Туле:

только они опять оба «немаленькие» (ну, нельзя назвать первый роддом Тулы маленьким), а ТОПЦ один из крупнейших областных центров в России.

Ещё два роддома есть в Архангельске:

Опять же, больница не совсем роддом, а клинический роддом скорее «средний», а не «большой». Если провести моделирование, аналогичное приведённому выше, то в Архангельске также более вероятно родить 60% мальчиков в «малом» роддоме (вероятность 5.5% против 4.9%).

Посмотрим, как вообще вероятность зависит от размера роддома. На рис. 9 вероятности вычислены в предположении, что распределение числа новорождённых по дням Пуассоновское.

birth11.png
Рис. 9. Вероятности рождения определённого процента мальчиков за день.

 

Увидеть среди новорождённых ровно 50% мальчиков вероятнее всего в маленьких роддомах, 55% или 70%, как ни странно, — в больших. А вот с 60% самое интересное… пока не хватает статистики, чтобы однозначно ответить на этот вопрос. Нужно точно знать распределения числа новорождённых по дням и статистику по городам, в которых ровно два роддома. Думаю, что всё-таки в «малых» роддомах… и классики правы.

Самое забавное, что пока не удалось найти реального города, в котором ровно два роддома: большой и маленький. Есть большой и большой, маленький (но это родильное отделение) и средний… вот чем плохи задачи, в которых пытаются оперировать реальными физическими объектами, а на абстрактными монетками.

Мораль

Во-первых, в реальных задачах далеко не всегда работает логика статистиков (многие явления формально не являются независимыми).

Во-вторых, понятия «большой» и «маленький» допускают неоднозначные толкования, даже слово «роддом» требует уточнения (заведение, где можно родить; на дверях которого написано «роддом»; или которое в народе называют «роддомом»).

В-третьих, описывая реальную ситуацию, постановщик задачи попадает в капкан реальности… ну и где же этот город с двумя указанными роддомами?

В любом случае, вероятности появления на свет 60% мальчиков в маленьком и большом роддомах не отличаются сильно (в задаче с монетками отличие было бы ощутимым).

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход /  Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход /  Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход /  Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход /  Изменить )

Connecting to %s