Смещение выборки

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Смещение выборки в статистике — такое смещение, при котором выборка производится таким образом, что некоторые члены предполагаемой совокупности, по сравнению с другими, имеют более низкую или более высокую вероятность выборки. В результате наблюдается смещённая выборка[1] популяции (или нечеловеческий фактор), в которой все испытуемые или экземпляры были выбраны с разной вероятностью.[2] Если не учесть данное смещение, то результаты могут ошибочно рассматриваться как изучаемое явление, а не как метод отбора проб.

Ошибка выборки в сфере медицины иногда рассматривается как систематическая ошибка выяснения[3][4]. Фактически ошибка выяснения представляет собой то же, что и смещение выборки,[5][6] однако, иногда её до сих пор выделяют как отдельный тип статистической ошибки[5].

Отличие от ошибки отбора[править | править код]

Смещение выборки обычно характеризуют как подтип систематической ошибки отбора,[7] даже иногда специфично определяют её как смещённая ошибка выборки,[8][9][10] однако другие определяют её как отдельный тип статистической ошибки.[11] Их отличие, хоть и не признанное большинством, заключается в том, что смещение выборки представляет собой ту ошибку, которая может поставить под сомнение внешнюю валидность испытания (возможность её результатов относиться ко всей совокупности), тогда как ошибка отбора соотносится лишь с внутренней валидностью различий или сходств, обнаруженных при проведении испытаний. Следовательно, ошибки, возникающие в процессе отбора образцов или определения когорт, могут привести к смещению выборки, а ошибки, возникшие уже после этого, к систематической ошибке отбора.

Тем не менее смещение выборки и ошибка отбора очень часто используются как синонимы.[12]

Виды[править | править код]

  • Выборка из конкретной области. Например, опрос, проведённый среди учащихся старших классов, об использовании ими запрещённых наркотических средств изначально был смещён, так как в нём не учитывается состояние подростков, проходящих обучение на дому или отчисленных. Выборка также смещена, когда некоторые испытуемые в группе либо представлены немногочисленным количеством своих типов, либо наоборот чрезмерно многочисленны по сравнению со всей популяцией или когортой. Так, например, опросы прохожих на улице или по какой-то конкретной области будут являться изначально чрезмерно «заполняющими» выборку по сравнению с людьми с хроническими заболеваниями, которые, например, не выходят на улицу. Данные опросы представляют собой крайнюю форму смещения в выборке, так как отдельные члены группы полностью исключены из исследования (вероятность их быть исследованными равна нулю).
  • Отклонение самостоятельно отбора (смещение в случае отсутствия ответов) представляет собой ситуацию, когда группа испытуемых имеет возможность самостоятельно отказаться от участия в исследовании (так как современная этика исследований над людьми требует, чтобы некоторые испытания проводились в реальном времени или были продолжительными). Решение испытуемых об участии в эксперименте может быть непосредственно связано с чертой или характеристикой, наблюдаемой при исследовании, что делает выборку участников не представительной. Например, люди с твёрдыми убеждениями или обширными знаниями разных областей с большей вероятностью будут участвовать в опросе по сравнению с испытуемыми, у которых нет данных особенностей. Ещё одним примером смещения выборки в пользу самостоятельного отбора являются опросы, проведённые онлайн или по телефону. Те люди, у которых есть желание или возможность ответить на вопросы, чаще всего имеют твёрдые убеждения, с высокой вероятностью будут представлены большинством в популяции, средь которой немногочисленными будут индивиды, которые абсолютны безразличны либо негативно настроены к данным исследованиям. Всё это в итоге приводит к поляризации, смещению ответов к крайним точкам зрения, что ведёт к общей диспропорции мнений. Именно поэтому данный вид опросов считается ненаучным.
  • Систематическая ошибка исключения возникает когда из исследуемой популяции исключаются группы объектов, например, субъекты, недавно мигрировавшие в местность, где проводятся исследования (также это может проявляться когда вновь прибывшие не доступны для регистрации в реестр популяции). Исключение субъектов, покидающих местность во время проведения испытания, больше напоминает выбывание или нежелание давать ответ, в данном случае ошибка отбора больше воздействует на внутреннюю валидность.
  • Эффект здорового рабочего проявляется, когда исследуемая группа здоровее, нежели остальное население. Например, человек со скудным здоровьем с меньшей вероятностью отыщет работу разнорабочего.
  • Парадокс Берксона возникает, когда исследуемая группа набирается из пациентов больниц. Данные субъекты соответственно менее здоровы по сравнению с остальным населением. Это может привести к ошибочным отрицательным корреляциям между болезнями: пациент больницы без диабета с большой долей вероятности будет обладать другими болезнями, такими как, например, холецистит, так как некоторая причина госпитализации всё же существует.
  • Чрезмерное совпадение — это ложное сопоставление, которое приводит к неверному выводу. Контрольная группа имеет больше схожих характеристик по признакам выявления с другой группой, нежели остальное население.
  • Систематическая ошибка выжившего возникает, когда отбирается лишь «выживший» субъект, при этом игнорируются те, кто не попал в отбор. Например, изучения отчётности работающих компаний, как фактор благоприятной деловой конъюнктуры или экономики, игнорирует факт существования организаций, которые обанкротились.
  • Смещение Малмквиста — эффект, наблюдаемый у астрономов, который проявляется к наблюдению лишь за самыми яркими объектами.

Симптомно-ориентированная выборка[править | править код]

Изучая медицинские отчёты невольно впадаешь в парадоксально-анекдотическое состояние. По своей структуре подобные отчёты содержат лишь информацию о способах лечения и диагноз. Ребёнку, у которого с учёбой и жизнью в школе проблемы, с большой долей вероятности будет поставлен диагноз дислексия, а ребёнку, который старается, учится, но не до конца хорошо справляется — нет. Обследованного ранее ребёнка с поставленным диагнозом будут чаще повторно обследовать и ставить новые состояния, что искажает статистику коморбидности. Люди, соответственно, услышав подобные диагнозы, чаще связывают их с расстройствами в поведении или умственной отсталостью, в то время как родители стараются огородить своих детей от подобных ярлыков, чем провоцируют ещё большую предвзятость в их отношении. Тщательно отобранные и изученные отчёты по исследованиям, в свою очередь, показывают, что подобные состояния являются гораздо более распространёнными и не такими жестокими по отношению к своему носителю, как считалось ранее.

Усечённый отбор при изучении родословных[править | править код]

Обычные пример смещения выборки при изучении родословной

Генетики ограничены в возможностях сбора данных от людей. Так, к примеру, данные касательно любой особенности человека. Нам интересно знать, является ли данная особенность врождённой, как гласит простое наследование по Менделю. Следуя правилам данного закона, если у родителей отсутствует данная особенность, но присутствует несущий её аллель, то потенциально они могут его передать по наследству (то есть гетерозигота не определена). При таком раскладе шанс ребёнка унаследовать данную особенность составляет 25 %. Однако встаёт следующий вопрос: можем ли мы сказать, в каких семьях обои родители являются носителями (гетерозиготными), если не судить по ребёнку, у которого уже могли проявиться данные особенности. Описание выдержано из учебника Саттона.[13]

На рисунке представлены родословные всех возможных семей с двумя детьми, где родители - переносчики (Аа).

  • Не усечённый отбор. В идеальной ситуации нам необходимо выявить такие семьи, где гены родителей являются простыми носителями. В данном случае, анализ никак не зависел от систематической погрешности и родословная подпадала бы под «не усечённый отбор». На практике же, в большинство исследований отбираются семьи с её членами - переносчиками.
  • Усечённый отбор. Ситуация, когда больные люди имеют одинаковые шансы быть включёнными в исследование, называется усечённым отбором. Это означает непреднамеренное исключение (усечение) семей, чьи члены являются носителями гена. Так как отбор происходит индивидуально, семьи с двумя или более больными детьми с большей долей вероятности будут в исследовании.
  • Полностью усечённый отбор — особый случай, когда все семьи с больными детьми имеют равные шансы быть отобраны для исследования.

На рисунке также показана вероятность с какой семьи может происходить отбор, а также частота отбора больных детей. В зависимости от используемого типа усечённого выбора исследователь будет отбирать частоту 47 или 58 при проявления признака.

Эффект пещерного человека[править | править код]

Наблюдаемый пример смещения отбора — «эффект пещерного человека». Большинство современных представлений о доисторических народах основываются на пещерных рисунках, которые были выполнены около 40 000 лет назад. Точно так же кострища, землянки, захоронения и т.д. останутся нетронутыми. В случае, если бы люди рисовали на деревьях, шкурах животных или склонах холмов, то вся эта информация была бы утрачена. Доисторические люди у нас ассоциируются с пещерами не потому, что все они всю свою жизнь жили в пещерах, а потому что до нас дошла информация, содержащаяся лишь в рисунках пещер.[13]

Проблемы, возникающие из-за смещения выборки[править | править код]

Вследствие возникновения ошибки смещения выборки проявляются проблемы, так как существует вероятность того, что статистика, собранная для анализа выборки, систематически неверна. Смещение выборки может привести к систематической переоценке или недооценке соответствующего параметра популяции. Смещение выборки потому и возникает, что практически невозможно обеспечить чистую случайность выборки. В случае, если процент недостаточной репрезентативности мал, выборку можно рассматривать как разумно-усредненное значение к случайной выборке. Кроме того, если выборка значимо не отличается по исследуемому параметру, то необъективная выборка также все еще может выступать в качестве приемлемой оценки.

Слово предвзятость имеет ярко выраженный негативный оттенок. Так и бывает, что ошибки возникают иногда вследствие заранее надуманного намерения исказить результаты исследований или научного мошенничества. В статистическом анализе систематические ошибки представляют собой обычное математическое свойство, и не важно являются они преднамеренными или нет, или как следствие несовершенства исследовательского оборудования. Не смотря на то, что некоторые личности могут преднамеренно использовать смещенную выборку для искажения результатов исследования, все равно чаще всего сам факт смещения выборки представляет собой просто сложность в предоставлении исконно репрезентативных данных или незнание о возможности проявления систематической ошибки на протяжении всего процесса исследования и анализа. Примером незнание факта систематической ошибки может служить повсеместно используемое отношение (также известного как кратность изменения) в качестве меры различия в биологии. Так как легче получить большое отношение из двух малых чисел с приведенным различием, нежели большое отношение из двух больших чисел со значимым отличием, значимые различия игнорируются, в этом случае сравниваются два относительно больших числовых измерения. Иногда, из-за использования отношения (деления) вместо различия (вычитания), можно услышать «систематическая ошибка демаркации», что приводит к смещению результатов исследования из области науки в псевдонауку (см. «Проблема демаркации»).

При некоторых выборках используется смещенный статистический расчет, которых, тем не менее, позволяет произвести оценку параметра. Национальный центр статистики здравоохранения США, например, преднамеренно использует избыточную выборку меньших популяций в большинстве своих общенациональных опросах с целью получить достаточную точность оценки данных групп.[14] В упомянутых опросах используется весовой коэффициент выборки (см. ниже). Он позволяют произвести надлежащую оценку по всем этническим группам. Если все отдельные условия соблюдены (главным образом при правильном расчете и использовании коэффициента), то данная выборка представляет точную оценку исследуемого параметра популяции.

Исторические примеры[править | править код]

Пример смещения выборки: по состоянию на июнь 2008 г. 55 % используемых веб-браузеров (Internet Explorer) не прошли тест Acid2 . Из-за методики, используемой в тесте выборка в своем большинстве состояла из веб-разработчиков.[15]

Классический пример смещения выборки и, как следствие, неверно полученных результатов произошел в 1936 году. В первые дни опроса общественного мнения, исследователями американского журнала Literary Digest было собрано около двух миллионов опросов по почте, которые предсказывали безусловную победу с абсолютным большинством кандидата от республиканцев Альфреда Лэндона на предстоящих президентских выборах США над тогда еще действующим президентом Франклином Рузвельтом. Фактически же все было с точностью до наоборот. Популяция выборки опроса, собранная журналистами Literary Digest представляла собой читателей данного журнала, а также людей-владельцев зарегистрированных автомобилей и пользователей телефонов. Данная выборка представляла собой чрезмерную репрезентативность богатых людей, которые, как отдельная группа, были более склонны голосовать за кандидата от Республиканцев. С другой стороны, опрос только 50 тысяч граждан, проведенным Джорджем Гэллапом, успешно предсказал результаты предстоящих выборов, что и будущем обеспечило популярность опросов института Гэллапа.

Еще один пример ставший классикой произошел на президентских выборах 1948 года. В ночь перед выборами Chicago Tribune выпустила газету с заголовком «Дью побеждает Трумэна», что позже оказалось ложью. На утро избранный президент Гарри С. Трумэн держа в руках данную газету был сфотографирован с презрительной улыбкой. Причина, по которой журналисты Tribune ошиблись, оказалась той, что их редактор, проводивший исследование, произвел лишь телефонный опрос. Технология опросов тогда еще находилась в зачаточном состоянии, и поэтому немногие ученые не знали, что репрезентативность выборки, производимой по телефону, стремится к нулю, так как не учитывает интересы всего населения в целом. Телефоны тогда еще не были широко распространены, и поэтому те, кто их имел, скорее всего были обеспеченными людьми с постоянным местом жительства. (В большинстве городов телефонная книга системы Белла содержала те же имена, что и «Светский альманах».) Журналисты основывали своих предположения на опросе Гэллапа, но упустили из виду тот факт, что он был 2-недельной давности.[16]

При анализе качества воздуха исследуются загрязняющие вещества (окись углерода, окись азота, двуокись азота или озон), которые часто демонстрируют высокую корреляцию, так как все они образуются в результате одного и того же химического процесса (процессов). Данная корреляция зависит от места (то есть месторасположения) и времени (то есть периода). Поэтому распространения конкретного загрязняющего вещества не обязательно представлено везде и всегда равнозначно. Если недорогой измерительный прибор откалибровать в поле по многомерным данным, а именно путем сопоставления с эталонным инструментом, то соотношение различных соединений используется уже при эталонировании модели. При перемещении измерительного инструмента могут быть получены ошибочные данные.[17]

Наиболее ранним примером смещения выборки является пандемия COVID-19, когда при анализе показателей смертности и возрастном распределении заболевших по разным странам, проявлялись различия в данных из-за смещения выборки людей, только прошедших тестирование на наличие COVID-19.[18][19]

Статистические коррекции смещения выборки[править | править код]

Если из выборки исключаются целые когорты населения, то отсутствуют поправки, на основании которых делается оценка всей популяции. Однако, если часть групп представляет собой большинство, а уровень их сверхрепрезентации может быть оценен, то тогда весовой коэффициент выборки может компенсировать смещение. Тем не менее, возможность успешной коррекции ограничена моделью отбора. Если отсутствуют значения некоторых переменных, то методы, которые обычно используются для коррекции смещения, могут дать обратный эффект.[20]

Например, в образную популяцию входят 10 миллионов мужчин и 10 миллионов женщин. Предположим, что смещенная выборка представляет собой 100 человек: 20 являются мужчинами, 80 — женщинами. Исследователь может компенсировать данный дисбаланс путем использования весового коэффициента в 2,5 для каждого мужчины и 0,625 для каждой женщины. Эти манипуляции позволят скорректировать оценку до уровня тех же результатов, как если бы выборка состояла из 50 мужчин и 50 женщин, за исключением случаев, когда вероятность участи мужчин или женщин в исследования случайна или не равна.

См. также[править | править код]

Примечания[править | править код]

  1. Sampling Bias. Medical Dictionary. Дата обращения: 23 сентября 2009. Архивировано 10 марта 2016 года.
  2. Biased sample. TheFreeDictionary. — «Mosby's Medical Dictionary, 8th edition». Дата обращения: 23 сентября 2009. Архивировано 17 июня 2019 года.
  3. R. J. Smith, R. G. Bryant. Metal substitutions incarbonic anhydrase: a halide ion probe study // Biochemical and Biophysical Research Communications. — 1975-10-27. — Т. 66, вып. 4. — С. 1281–1286. — ISSN 0006-291X. — doi:10.1016/0006-291x(75)90498-2. Архивировано 9 апреля 2022 года.
  4. U. N. Wiesmann, S. DiDonato, N. N. Herschkowitz. Effect of chloroquine on cultured fibroblasts: release of lysosomal hydrolases and inhibition of their uptake // Biochemical and Biophysical Research Communications. — 1975-10-27. — Т. 66, вып. 4. — С. 1338–1343. — ISSN 1090-2104. — doi:10.1016/0006-291x(75)90506-9. Архивировано 5 марта 2022 года.
  5. 1 2 W. A. Hendrickson, K. B. Ward. Atomic models for the polypeptide backbones of myohemerythrin and hemerythrin // Biochemical and Biophysical Research Communications. — 1975-10-27. — Т. 66, вып. 4. — С. 1349–1356. — ISSN 1090-2104. — doi:10.1016/0006-291x(75)90508-2. Архивировано 17 октября 2020 года.
  6. Y. W. Chow, R. Pietranico, A. Mukerji. Studies of oxygen binding energy to hemoglobin molecule // Biochemical and Biophysical Research Communications. — 1975-10-27. — Т. 66, вып. 4. — С. 1424–1431. — ISSN 0006-291X. — doi:10.1016/0006-291x(75)90518-5. Архивировано 3 февраля 2022 года.
  7. T. R. Anderson, T. A. Slotkin. Maturation of the adrenal medulla--IV. Effects of morphine // Biochemical Pharmacology. — 1975-08-15. — Т. 24, вып. 16. — С. 1469–1474. — ISSN 1873-2968. — doi:10.1016/0006-2952(75)90020-9. Архивировано 9 марта 2022 года.
  8. "The effects of sample selection bias on racial differences in child abuse reporting". Child Abuse & Neglect. 22 (2): 103—15. February 1998. doi:10.1016/S0145-2134(97)00131-2. PMID 9504213.
  9. "Sample Selection Bias Correction Theory" (PDF). Algorithmic Learning Theory. 5254: 38—53. 2008. arXiv:0805.2775. CiteSeerX 10.1.1.144.4478. doi:10.1007/978-3-540-87987-9_8. ISBN 978-3-540-87986-2. Архивировано (PDF) из оригинала 27 сентября 2018. Дата обращения: 5 августа 2022.
  10. "Domain adaptation and sample bias correction theory and algorithm for regression" (PDF). Theoretical Computer Science. 519: 103—126. 2014. CiteSeerX 10.1.1.367.6899. doi:10.1016/j.tcs.2013.09.027. Архивировано (PDF) из оригинала 27 сентября 2018. Дата обращения: 5 августа 2022.
  11. J. M. Stein. The effect of adrenaline and of alpha- and beta-adrenergic blocking agents on ATP concentration and on incorporation of 32Pi into ATP in rat fat cells // Biochemical Pharmacology. — 1975-09-15. — Т. 24, вып. 18. — С. 1659–1662. — ISSN 0006-2952. — doi:10.1016/0006-2952(75)90002-7. Архивировано 27 августа 2023 года.
  12. Maxcy-Rosenau-Last Public Health and Preventive Medicine. — 15th. — McGraw Hill Professional, 2007. — P. 21. — ISBN 978-0-07-159318-2.
  13. 1 2 V. M. Bhagwat, B. V. Ramachandran. Malathion A and B esterases of mouse liver-I // Biochemical Pharmacology. — 1975-09-15. — Т. 24, вып. 18. — С. 1713–1717. — ISSN 0006-2952. — doi:10.1016/0006-2952(75)90011-8. Архивировано 6 апреля 2022 года.
  14. N. Akamatsu, H. Nakajima, M. Ono, Y. Miura. Increase in acetyl CoA synthetase activity after phenobarbital treatment // Biochemical Pharmacology. — 1975-09-15. — Т. 24, вып. 18. — С. 1725–1727. — ISSN 0006-2952. — doi:10.1016/0006-2952(75)90013-1. Архивировано 9 марта 2022 года.
  15. Browser Statistics. Refsnes Data (июнь 2008). Дата обращения: 5 июля 2008. Архивировано 11 мая 2008 года.
  16. B. Renaud, M. Buda, B. D. Lewis, J. F. Pujol. Effects of 5,6-dihydroxytryptamine on tyrosine-hydroxylase activity in central catecholaminergic neurons of the rat // Biochemical Pharmacology. — 1975-09-15. — Т. 24, вып. 18. — С. 1739–1742. — ISSN 0006-2952. — doi:10.1016/0006-2952(75)90018-0. Архивировано 21 декабря 2022 года.
  17. M. M. Ris, R. A. Deitrich, J. P. Von Wartburg. Inhibition of aldehyde reductase isoenzymes in human and rat brain // Biochemical Pharmacology. — 1975-10-15. — Т. 24, вып. 20. — С. 1865–1869. — ISSN 0006-2952. — doi:10.1016/0006-2952(75)90405-0. Архивировано 6 апреля 2022 года.
  18. A. E. Halaris, K. T. Belendiuk, D. X. Freedman. Antidepressant drugs affect dopamine uptake // Biochemical Pharmacology. — 1975-10-15. — Т. 24, вып. 20. — С. 1896–1897. — ISSN 0006-2952. — doi:10.1016/0006-2952(75)90412-8. Архивировано 13 мая 2021 года.
  19. W. Barthel, F. Markwardt. Aggregation of blood platelets by adrenaline and its uptake // Biochemical Pharmacology. — 1975-10-15. — Т. 24, вып. 20. — С. 1903–1904. — ISSN 0006-2952. — doi:10.1016/0006-2952(75)90415-3. Архивировано 15 мая 2021 года.
  20. O. Isaac, K. Thiemer. [Biochemical studies on camomile components/III. In vitro studies about the antipeptic activity of (--)-alpha-bisabolol (author's transl)] // Arzneimittel-Forschung. — 1975-09. — Т. 25, вып. 9. — С. 1352–1354. — ISSN 0004-4172. Архивировано 4 мая 2022 года.