Как обманывает статистика // Vital Math
Данные одни, а выводы разные! Парадокс! Представьте, смотрите на каждую часть по отдельности - результат один, объединяете - результат другой. Как такое может быть? Как нельзя смотреть на данные? И при чем здесь все-таки Симпсон?
Парадокс Симпсона описывает ситуацию, когда из одного набора данных делают разные выводы. Результат по подгруппам один, а при объединении - уже совсем другой. Как такое может быть? Как нельзя смотреть на данные? И при чем здесь все-таки Симпсон?
- Полезно начать ru.wikipedia.org/wiki/%D0%9F%...
- Самое понятное объяснение • Simpson's Paradox
- Несколько примеров intellect.icu/paradoks-simpso...
- Ещё примеры blog.revolutionanalytics.com/...
- И ещё примеры towardsdatascience.com/simpso...
Music: Upbeat Hip Hop - AShamaluevMusic.. Music Link: • Upbeat Hip Hop - by AS...
Богатые едят мясо, а бедные капусту, а вместе они едят голубцы. Статистика.
Жена председателя дает всем подряд, доярка никому не дает. По статистике обе давалки
Какая свежая мысль! Ты лучший, бро!
Это не статистика,это среднее значение. В статистике лучее использовать медиану
Это не статистика,это среднее значение. В статистике лучее использовать медиану
Богатые едят мясо, а бедные капусту, в вместе они едать капусту с крохами мяса. Статистика.
Заседание в колхозе. Председатель: -В этом году мы собрали урожай в 21 тонну пшеницы, в среднем 3 тонны с гектара. -А как это в среднем? -Ну допустим с одного поля мы собрали 4 тонны, а с другого две, в среднем получается три. -Это что же получается, если Машка спит с тремя мужиками по очереди, Катька не спит ни с кем,а я со своим никому не изменяю то получается, что в среднем мы все шл*хи?
Твой пример гораздо лучше обеснят тему чем дебильная таблица автора.
Это наверно самый наглядный пример того, как статистика может извратить факты :) Я когда в институте учился на 4 курсе у нас был подобный случай, институт проверяли из минобразования и мы писали какую-то проверочную работу на качество образования (т.е. оценивали не нас, а институт), ну и мы значит из 100 баллов пишем 97,96,94,92,91, ну и все в таком духе все выше 90, и пришел один парень который не в зуб ногой, причем он вообще на лекции не ходил и его уже давно хотели отчислить, а тут он приперся и сразу на такое ответственное мероприятие, и набрал он 14 баллов :) Соответственно наш средний бал ушел на уровень 80+ :) За что потом все мы дружно получили огромный пистон...
Для этого есть медиана @@user-nc1vd9xl4r
потрясающе, как можно объяснить так, что непонятное стало ещё более непонятным ))))
Соболезную вам.....
Нет , просто до этого вы об этом не задумывались и знали об статистике поверхностно , а вам дали более углубл5нную инфорамацию
В том-то и дело, что информацию, а не знание. Да не, я не в претензии - каждый объясняет, как умеет. И каждый понимает, как умеет. Но лично для меня это не объяснение, а два примера на заданную тему. Если не понимал до этого, то и после не прймешь
@@Poyka90себе пособолезнуй. Если никто не умер-сочувствуют
Согласен что не статистика обманывает, а люди которые не умеют исползовать статистику
Ну да. А те которые умеют конечно не обманывают, лол.
Или наоборот, люди, которые слишком хорошо умеют :)
Поживём ещё лет 20 и люди уже ничего не будут решать и кого-то обманывать, всем займётся искуственный интеллект.
Так получается потому, что исследование поставлено неправильно, численности групп должны быть одинаковыми для однородности, плюс, на таких малых группах статистика себя не проявляет точно, поскольку математическая база статистики это закон больших чисел. Далее сводка и группировка должна быть проведена грамотно, мухи с котлетами мешать не нужно, если это не дает нужный показатель.
Да все что он рассказал проходят еще в начальной школе.
@@sergeynoob8olvl626 Нет, не проходят. Даже в универе.
Спасибо за здравомыслие. Я поражаюсь, что столько хвалебных комментариев. Я когда слушал эту чушь думал, что зайду в комменты и здесь будут автора в говно тыкать. А нет. Там по всем примерам чушь. С вероятностью вытащить черный камень еще и лож. Можно просто посчитать вероятности, что автор не сделал, хотя привел условия задачи как доказательство. Понятно почему не расчитал вероятности, в надежде что никто проверять не будет. Ну ладно автор или дебил или хайпожер, но те кто это слушает и хавает...
@@alextsitovich9800 в универе на статистике проходят
@@alextsitovich9800Учебник за 4 старший класс открой, wiskunde 4B - бивариативная статистика, стр.21, изучается то как проверять релевантны ли данные получаемые статистикой.
Ещё один пример -- знаменитый миф о том, что малые дозы алкоголя улучшают здоровье. Было исследование на большой выборке, где мерили зависимость продолжительности жизни от потребления алкоголя. И получалось, что максимум был не при нуле потребления, а чуть выше. Выходило, что потреблять ноль алкоголя как будто вреднее, чем потреблять небольшое количество. В итоге, это была ошибка. Потому что были люди, которые не принимали алкоголь уже из-за проблем со здоровьем. Тем самым снижали статистику по продолжительности жизни как раз в зоне нуля потребления.
Какое же удовольствип смотреть твои видео!) Спасибо!!!
Вам спасибо! Скоро будет ещё!
Вот это правда полезный ролик в наше время.
Часто встречается во многих опросах!
Пример с камнями очень похож на джерримендеринг - в США способ разбиения на избирательные округа, чтобы у одной партии или кандидата был перевес в большем числе округов, хотя если при этом считать суммарно по всему населению, то эта партия не имеет большинства
Хорошее видео. Лайк. Если подытожить -- это следствие нерелевантности выборок. Есть параметр, который влияет на результат эксперимента. И выборки формируются с разным распределением этого параметра. Примеры: возраст влияет на действие лекарства, выбор факультета -- на вероятность поступления, образование на доход. Конечно, в модельных примерах всё будет очевидно. На то они и модельные. В реальном мире всё сложнее, потому что никогда не знаешь, есть ли в выборке скрытый параметр, который влияет на результат. Спасает рандомизация выборки, если есть такая возможность. Если нет возможности формировать выборку -- тут только анализировать данные в надежде, что скрытого параметра нет.
Мне очень интересны ваши объяснения. Не всё понятно, есть пробелы в базовых знаниях, но концептуальные блоки ясны. Огромное спасибо!!
Большинство пешеходов, попавших в ДТП попадают в него на пешеходных переходах. Избегайте пешеходных переходов - по статистике они небезопасны.
Среди 95-летних за день до смерти 90% ели огурцы. Вывод очевиден, огурцы - яд.
@@leoleo3119 только если тебе 95 лет:)
Райкин-Жванецкий "90% умерших ели огурцы"...
100% умерших пили воду
@@user-rs4ht6ni6f подписка ок
@@user-rs4ht6ni6f Дигидрогена монооксид - опаснейший наркотик. 100% зависимость. 100% смертность.
Очень интересное и понятное обьяснение. Спасибо
Очень классный ролик! Спасибо!
Теперь понятно, спасибо вам!
Музыка мешает. Перематываешь назад постоянно, материалы достаточно серьезные, есть над чем подумать. Неужели мне одному мешает. В других роликах тоже есть такой эффект. Мне бы лучше заходило на фоне тишины, объясняет автор прекрасно!
И музыка, и эхо помещения. Звуковая дорожка отстойная.
Блин, чувак, у тебя качественная обложка, качественные видео, я очень сожалею, что у тебя мало просмотров. Понимаю, вроде бы следуешь всем законам ютуба - а ничего не получается... Очень надеюсь что однажды ты выстрелишь, и станешь топовым научпоп каналом, наравне с СайУан, Шарифовым, Побединским, потому что контент супер))
У него не лучшая подача. Речь слабая, не привлекающая. Контент хороший, но есть слабости, которые никогда не позволят раскрутиться. К сожалению
Согласен
@@Breghnev не всё сразу. Пожелаем удачного развития 😉
Теперь буду использовать постоянно на работе, так как постоянно начальство объединяет и спрашивает, а почему по группам так, а всего иначе
Нет слов. Автор выступил очень познавательный ролик!
Крутой и качественный контент. Так как не деградантского содержания и лишнего пафоса, ожидаемо, просмотров меньше. Но, нам же, зрителям такого контента, лучше, ибо за статистикой - настоящее и будущее.
Комментарий в поддержку канала. Отличные видео и доступное объяснение) Давайте про парадокс двух конвертов, там ещё интереснее :)
Так в первом примере все правильно, обычно только 1/5 молодых принимает лекарства, а 4/5 пожилых) А про кошек - чем счастливее хозяин, тем меньше проблем у кошек)
Спасибо за хороший контент. Смотрел с удовольствием.
Очень круто объясняешь
Ну то есть если ты не понимаешь математики, то тебе лучше не трогать статистику. Удивительный/шокирующий, свежий/внезапный вывод!
Спасибо Евгений Баженов за хороший видеоролик
А я то думаю, почему моя левая нога не похожа на шлагбаум. Оказывается их нельзя сравнивать! Вы гений!
Видео супер, смотреть всем, кто работает с данными! Новички часто забивают на разделение мух и котлет, что сводит на ноль все труды. И самое страшное, что такие ошибки сложно отследить. Результат: ложные вычисления подаются как истинные... Беда, если опираешься на них при стратегическом планировании
разделяй и делай со статистикой все что хочешь...
Оказывается у сравнения тёплого с мягким есть своё название)
Вопрос если в кучка где шанс вытащить чёрный камень больше то как их там меньше
Меньше, чем в другой кучке.
Очень круто!
Если бы в школе и институте уделяли бы больше времени теории размерностей, то ошибок было бы меньше. Приписывая числам некий параметр как размерность проще контролировать, не допустили ли мы ошибку в вычислениях. Как говорил мой препод: дифференцировать слонов по табуреткам. Сделайте видео про тоерию размерностей - многим будет полезно.
8:39 Согласно принципу Арнольда, открытия (и всякие штуки) обычно называют не в честь первооткрывателя. А том числе и принцип Арнольда.
Отлично рассказал! Я бы ещё какой-нибудь сложный пример добавил, ведь проблема с этим парадоксом возникает тогда, когда заранее не группы не разбивают и не очень понятно как можно разбить.
Классное видео. Жаль,что так мало просмотров
Такие темы надо объяснять, не походят, а основательно, иначе ещё больше запутываете.
чем больше котов складываешь рядом с человеком, тем больше его счастье
С камнями неловко как-то вышло. По факту сложенные кучки с наибольшими вероятностями на примере именно что дают БОЛЬШУЮ вероятность вытащить черный камень, чем остальные сложенные.
Вы удивительный расказчик.
Тот, кто хотя бы немного дружит с математикой давно это понял. А некоторых ролик окончательно запутал. Парадокс Vital Math
Парадокс Симсона очень хорошо заметен на выборах, когда кто-то, кого все хаят, набирает под 80% голосов. Как так? Очень просто: вы, кто хаит, не идете голосовать (потому что вас убедили, что "голосуй не голосуй все равно получишь ... шайбу"), а те, кто является админ.ресурсом идут голосовать, т.к. их жестко контролируют. Вот и получается, что на выборы пришло всего 25% избирателей, из которых 80% проголосовали за "кого надо". Итог: реальная поддержка 20%, а по итогам выборов 80%.
Или одной и групп скармливают кривую статистику. 😊
А в чем парадокс то? Что если неправильно обрабатывать информацию получится неправильный ответ? Вот так дааа…
Это и есть парадокс. Неверное вычисление, ведущее к противоречивому ответу. Разве есть что-то другое, что называют парадоксом?
@@RedGallardo а что тут не понятного? В одной группе красное и синее, а в другой горячее и холодное. Если смешать неправильно, то красное будет холодным, а синее горячим.
@@ViktorV1980 Мне лично всё понятно, мне объяснять не нужно.
@@RedGallardo просто поддержал
@@ViktorV1980 в примере с камнями это не очевидно. и там и там и черные, и белые камни
та ладно, а теперь давайте про "самый безопасный вид транспорта"
Спасибо!
Если бы статистика собиралась не один раз, а множество, пусть даже с тем же соотношением по людям, то картина была бы более правдоподобной.
Если дизайн изначально неправильный, то нет, не была бы.
8:34 это закон Стиглера: Ни одно научное открытие не было названо в честь его первооткрывателя
Последние 30 секунд каждого видел самый сок, статистика
Странно... Почему упоминая о не правильности выводов из статистики о принимавших и не принимавших лекарство, ты не упомянул, что для всех 4ёх груп нужно равное кол-во испытуемых?
Кто плохо смотрел видео - объяснили итоговую интерпретацию уже полученных данных - это раз, а также объяснили, что при разном количестве испытуемых нужно использовать веса, для уравновешивания их разности в количестве - это два
2:41
Сколько примерно времени уходит на создание такого ролика?
Много!
При статистической исследовании необходимо использовать коэфицент достоверности (критерий Стюдента) и исходя из необходимго уровня достоверности подбирать необходимое количество наблюдаемых в группах
А как определяется этот уровень достоверности?
@@BukhalovAVгугл в помощь
спасибо
Парадокс неудачника в соц. опросах: если провести опрос в Сетях, то мы скорее всего получим результат, что у большинства нет работы или она плохая, нет девушки или она ... плохая, нет друзей, нет хобби, и вообще жизнь отстой! Причина в том, что когда у тебя есть интересное занятие, друзья, хобби, и интерес в жизни - отвечать на вопросы скучно и некогда.
Контент классный, но фоновая музыка в этом видео подобрана не удачно - отвлекает..
Спасибо, будем исправлять
А еще не надо забывать, что статистика это просто ориентир, а не доказательство чего либо. И в конце концов с современным вычислительным оборудованием, мне будет интересна не статистика принятия лекарства, а статистика применения лекарства индивидуумами, максимально похожими на меня.
Мм, полезно!
Кажется, что тема достойна того, чтобы разжевать чуть глубже. Хотя бы те же примеры стоило разобрать детальнее, на пальцах. Сейчас при просмотре видео всё понятно только тем, кто и до этого понимал о чём речь)
5:02 не понял графика. Если просто сложить две кривые получится не так.
Парадокс скорее в том, что статистика как наука вообще не может обманывать. Это просто формулы. А вот их применение и интерпретация результатов в руках умелых и задорных может приводить к забавным итогам. Тервер вообще весёлая штука, взять те же нетранзитивные кубики.
Когда работал в консалтинге, приходилось часто пользоваться, чтобы ввести клиента в заблуждение...
а вообще статистика - штука очень нестабильная, если размер данных маленький никто не отменял различные сторонние факторы, от которых избавиться в большинстве случаев получится только когда собираются данные не со 100 человек, а со 100 миллионов
Наверно очень близко парадокс "среднестатистического пилота", когда кабина самолета, разработанная под такого пилота, была неудобна абсолютно всем
👍👍
Супер!! Собственно, пора пересмотреть азы социологии и внести корректировки, чтобы количество ошибок минимизировать. Или саму статистику аннулировать! Как такая идея вам?
Нормальные социологи это проходят в институте и все учитывают. А диванные - рассказывают что им нужно делать.
уже лучше!
Надо изменять сами данные и рассмотры
до момента с котами мне было всё понятно 😂
Аа так это про систему выборщиков в США)
На самом деле количество лайков на этом видео не такое маленькое, это частный случай парадокса Симпсона
Это обманывает не статистика, а люди составляющие странные выборки
Да все просто, чем больше людей тем точнее статистика , по нескольким человекам смешно делать стату)))
Что то я не понял как при сложении двух гипербол (условно) была получена парабола. (Это про котов и людей).
Интересно, но необходимо конкретно вдумываться.
Кого Марк Твен цитировал?
"неплохо вероятным" - !!!…
В офисе работает 10 человек и 4 женщины, должны ли люди поднимать стульчак в туалете. Ведь по статистике женщина писают сидя и люди какают сидя. Получается, что как минимум 14 раз в день стульчак должен быть опущен. Но тут парадокс Симпсона, ведь люди писают стоя, и их число больше.
парадокс не парадокс т.к. статистика основана на разношерстных данных и изначально не точна ,ибо взята не от общих ,или равны относительно друг друга групп.
Чем более вы счастливый тем более вы кот.
Статистику желательно считать по ВСЕМ случаям, ну или хотя бы по значительной их части. А когда мы, к примеру, рассмотрели 1 миллион людей принимавших лекарства.. Из 7 миллиардов жителей Планеты.. то вероятность что данная статистика верна - 0,014%. ))
Все парадоксы в парадоксальных головах учёных:) В природе парадоксов не бывает, иначе природа не может существовать. Парадоксы в математике кроются некорректно сформулированных исходных условиях или некорректными выводами, противоречащими логике и здравому смыслу.
Про статистике 15 процентов аварий происходит по вине пьяных водителей, а остальные 85 по вине трезвых.. )))
По статистике женщины за рулем в 6 раз реже попадают в ДТП...
Напишу комментарий для продвижения качественного контента!
6:30 А ведь высшее образование в 2000 году - это совсем не то же самое, что высшее образование в 2012, как же сравнивать тогда?
Ужасное эхо сделайте с этим что то . Поясню все остальные факторы великолепны , но всю прелесть руинит звук (хотя видео уже год и возможно уже исправили)
😲👍👍👍👍👍👍👋
По статистике люли которые едят свинину реже взрываются. Мой любимый пример
Чет фигня какая-то с весами если честно, они наоборот картину вообще меняют в неправильную сторону. Может возникнуть ситуация когда если так же складывать %, как в примере с лекарствами получится вообще больше 100%. Либо это супер контр-интуитивно, либо ты что-то напутал
Либо математика сходящихся рядов не работает. Так, если суммы рядов {а} и {б} равны 1, то сумма их поэлементного произведения {аб} тоже равна 1.
Если подытожить, то математики не смогли сосредоточиться и назвали это парадоксом симпсона, чтобы на них бочку не катили.
мы все тут были до 20к, до 200к, до 2кк !
почему вы скалдываете вероятности взвешанные, а не взвешиваете количество и только потом считаете вероятность в финале
Со статистикой нужно уметь работать. Просто тупые цифры ничего не скажут
0:49 почему количество принимало/не принимало в разных группах разное? Какой же это парадокс, если тупо неправильно поставленный эксперимент, да и про выживаемоесть надо учитывать сопутствующие факторы и причину смерти.
Сложно о простом
Топ)
Камушки не правильно подсчитаны 😅
Автору для начала стоило бы распространиться про софизмы, на которых построили не одну маркетинговую кампанию. Многие ангажированные исследования проходят с такими же манипуляциями. Например влияние продуктов с гмо на заболеваемость раком у крыс. Насколько я помню, исследование проводилось на особой породе этих самых крыс, поголовно заболевающих раком на втором году жизни. Проще говоря, чем ты их не корми, заболеваемость практически 100%. Более наглядный пример. Усложним данные ролика. Берем выборку из 10000 тысяч человек, каждой категории и даем им тестовое лекарство от, допустим, грибка стопы. Потом оказывается из 10000 наблюдаемых в группе принимающих лекарство 60+ 2757 человек умерло, а в группе не принимающих 60+ только 751. То есть противогрибковая мазь убивает? По факту группа 60+ имеет повышенный риск смертности, за счет старения и накопления хронических заболеваний, плюс не касающиеся экспериммента случаев вроде землетрясения ДТП или криминала.
Звук... Эхо бьет по ушам
Проблема в том, что результаты в данном примере, как вы их не взвешивайте, а) статистически незначимы, и самое главное б) бессмысленны. Незначимы, потому что размер выборки явно недостаточен. Бессмысленны - потому, что статистика - это вишенка на торте эксперимента и использование ее техник целиком и полностью зависит от методологии и контекста эксперимента. А про эксперимент тут не сказано.
Сама по себе выживаемость у людей младше 60 лет больше чем у тех кому за 60!!! Тоже мне парадокс!
По статистике собранной в интернете 100% населения имеет доступ к интернету.