Систематическая ошибка отбора

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Систематическая ошибка отбора — статистическое понятие, показывающее, что выводы, сделанные применительно к какой-либо группе, могут оказаться неточными вследствие неправильного отбора в эту группу.

Ошибки отбора результатов[править | править вики-текст]

Могут включать предварительный или последующий отбор с превалированием или исключением некоторых видов. Это может быть, конечно, разновидностью научного мошенничества, манипуляцией данными, но гораздо чаще является добросовестным заблуждением, например, вследствие использования неподходящего инструмента.

Например, в эпоху использования плёнки для фотографирования неба независимый наблюдатель определённо пришёл бы к выводу, что количество голубых галактик явно больше, чем количество красных. Не потому, что голубые галактики более распространены, но лишь вследствие того, что большинство плёнок более чувствительны к голубой части спектра. Тот же независимый наблюдатель сделал бы прямо противоположный вывод сейчас, в эпоху цифровой фотографии, потому что матрицы цифровых фотоаппаратов более чувствительны к красной части спектра.

Типы систематических ошибок[править | править вики-текст]

Существует большое количество возможных систематических ошибок, основные типы:

Пространство[править | править вики-текст]

  • Выбор первой и последней точки в серии. К примеру, для того, чтобы максимизировать заявленный тренд, можно начать серию с года с необычно низкими показателями и закончить годом с самыми высокими показателями.
  • «Своевременное» окончание, то есть тогда, когда результаты укладываются в желаемую теорию.
  • Отделение части данных на основе знаний обо всей выборке и затем применение математического аппарата к этой части как к слепой (случайной) выборке. См. Районированная выборка, en:cluster sampling, Ошибка меткого стрелка.
  • Изучение процесса на интервале (во времени или пространстве) длиной заведомо меньшей, чем требуется для полного представления о явлении.

Данные[править | править вики-текст]

  • Вычёркивание неких «плохих» данных в соответствии с правилами, хотя бы эти правила и шли вразрез с предварительно объявленными правилами для этой выборки.


Участники[править | править вики-текст]

  • Предварительный отбор участников, или, к примеру, размещение объявления о наборе добровольцев для участия в испытаниях среди определённой группы людей. К примеру, для доказательства, что курение никак не вредит результатам фитнеса, можно разместить в местном фитнесцентре объявление для набора добровольцев, но курящих набирать в мастерклассе, а некурящих среди начинающих или в секции желающих сбросить вес.
  • Выбрасывание из выборки участников, не дошедших до конца теста. В программе похудения мы рассматриваем подробные графики сброса веса как доказательство правильности методики, но в эти графики не включены не дошедшие до конца участники, посчитавшие, что на них эта методика не работает.
  • Систематическая ошибка самоотбора. То есть группа людей для изучения формируется частично по собственной воле, так как не все опрошенные пожелают участвовать в тесте.

Устранение систематической ошибки[править | править вики-текст]

В общем случае невозможно выделить систематическую ошибку выборки только на основе статистических методов, хотя, как показано в работе нобелевского лауреата Джеймса Хекмана (англ. James Heckman), в некоторых специальных случаях существуют работающие стратегии.

Известной является фраза «рассказы об уме и доброте дельфинов основаны на рассказах уставших пловцов, которых они толкали к берегу, но мы лишены возможности услышать рассказ тех, кого они толкали в другую сторону».

См. также[править | править вики-текст]