Выборка исследования

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

В статистике выборка исследования описывает процесс отбора выборки элементов из целевой совокупности для проведения исследования. Термин «исследование» может относиться ко многим различным типам или методам наблюдения. При выборочном исследовании чаще всего используется опросник, используемый для измерения характеристик и/или отношения людей. Различные способы связи с членами выборки после того, как они были отобраны, являются предметом сбора данных исследования. Целью выборки является сокращение затрат и/или объема работы, которые потребуются для обследования всего изучаемого населения. Исследование, которое измеряет все целевое население, называется переписью. Выборка относится к группе или части совокупности, от которой должна быть получена информация.

Выборки исследований можно условно разделить на два типа: вероятностные выборки и супервыборки. Выборки, основанные на вероятностях, реализуют план выборки с заданными вероятностями (возможно, адаптированными вероятностями, заданными адаптивной процедурой). Выборка на основе вероятностей позволяет делать выводы о целевой совокупности на основе дизайна. Выводы основаны на известном объективном распределении вероятностей, указанном в протоколе исследования. Выводы, сделанные на основе вероятностных исследований, могут по-прежнему страдать от многих типов систематических ошибок.

Исследования, которые не основаны на вероятностной выборке, имеют большие трудности с измерением систематической ошибки или ошибки выборки [1]. Исследования, основанные на невероятностных выборках, часто могут не включать группу лиц из целевой совокупности [2].

В академических и государственных исследованиях вероятностная выборка является стандартной процедурой. В Соединенных Штатах в «Списке стандартов для статистических исследований» Административно-бюджетного управления говорится, что исследования, финансируемые из федерального бюджета, должны проводиться следующим образом:

«...отбор выборок с использованием общепринятых статистических методов (например, вероятностных методов, которые могут обеспечить оценку ошибки выборки). Любое использование невероятностных методов выборки (например, отсечки или выборки на основе моделей) должно быть статистически обосновано и иметь возможность измерять ошибку оценки» [3].

Случайная выборка и вывод на основе плана дополняются другими статистическими методами, такими как выборка с помощью моделей и выборка на основе моделей [4][5].

Например, многие исследования имеют значительное количество отсутствующих ответов. Несмотря на то что единицы изначально выбираются с известными вероятностями, механизмы отсутствия ответа неизвестны. Для исследований со значительным отсутствием ответов статистики предложили статистические модели, с помощью которых анализируются наборы данных.

Вопросы, связанные с выборкой исследования, обсуждаются в нескольких источниках, включая публикацию Салант и Диллмана (1994) [6].

Вероятностная выборка[править | править код]

В вероятностной выборке (также называемой «научной» или «случайной» выборкой) каждый член целевой совокупности имеет известную и ненулевую вероятность включения в выборку [7]. Опрос, основанный на вероятностной выборке, теоретически может дать следующие статистические измерения целевой совокупности:

Выборка исследования, основанная на вероятности, создается путем составления списка целевой совокупности, называемого основой выборки, рандомизированного процесса выбора единиц из основы выборки, называемого процедурой отбора, и метода установления контакта с выбранными единицами, чтобы они могли заполнить опрос, называемый методом или режимом сбора данных [10]. Для некоторых целевых групп этот процесс может быть простым, например выборка сотрудников компании с использованием списков заработной платы. Однако в больших неорганизованных популяциях простое построение подходящей основы выборки часто является сложной и дорогостоящей задачей.

Распространенными методами проведения вероятностной выборки населения домохозяйств в Соединенных Штатах являются вероятностная выборка по району, телефонная выборка со случайным набором цифр и в последнее время выборка на основе адреса [11].

В рамках вероятностной выборки существуют специальные методы, такие как стратифицированная выборка и кластерная выборка, которые повышают точность или эффективность процесса выборки без изменения основных принципов вероятностной выборки.

Стратификация — это процесс деления членов совокупности на однородные подгруппы перед выборкой на основе вспомогательной информации о каждой единице выборки. Страты должны быть взаимоисключающими: каждый элемент совокупности должен быть отнесен только к одной страте. Слои также должны быть исчерпывающими в совокупности: ни один элемент совокупности не может быть исключен. Затем в каждой страте могут применяться такие методы, как простая случайная выборка или систематическая выборка. Стратификация часто повышает репрезентативность выборки за счет уменьшения ошибки выборки.

Систематическая ошибка в вероятностной выборке[править | править код]

Систематическая ошибка в опросах нежелательна, но часто неизбежна. Основные типы ошибок, которые могут возникнуть в процессе выборки, следующие.

  • Систематическая ошибка, связанная с отсутствием ответов: когда отдельные лица или домохозяйства, отобранные в выборку для обследования, не могут или не захотят завершить обследование, существует возможность возникновения систематической ошибки в результате такого отсутствия ответов. Систематическая ошибка, связанная с отсутствием ответов, возникает, когда наблюдаемое значение отклоняется от параметра генеральной совокупности из-за различий между респондентами и нереспондентами [12].
  • Систематическая ошибка при ответе: это не противоположность систематической ошибке, связанной с отсутствием ответов, а ошибка, связанная с возможной тенденцией респондентов давать неточные или ложные ответы по разным причинам.
  • Систематическая ошибка отбора: смещение выбора возникает, когда некоторые единицы имеют разную вероятность выбора, которая не учитывается исследователем. Например, некоторые домохозяйства имеют несколько телефонных номеров, что повышает вероятность их выбора в телефонном опросе по сравнению с домохозяйствами, имеющими только один номер телефона. Эта систематическая ошибка отбора может быть исправлена путем применения к каждому домохозяйству веса опроса, равного [1/(количество телефонных номеров)].
  • Систематическая ошибка самоотбора: тип предвзятости, при котором люди добровольно выбирают себя в группу, тем самым потенциально искажая реакцию этой группы.
  • Систематическая ошибка участия: предвзятость, возникающая из-за характеристик тех, кто решил участвовать в анкетировании или опросе.
  • Систематическая ошибка охвата: смещение охвата может иметь место, когда члены совокупности не фигурируют в инструментарии выборки (недостаточный охват). Смещение охвата возникает, когда наблюдаемое значение отклоняется от параметра генеральной совокупности из-за различий между охваченными и неохваченными единицами. Телефонные обследования страдают от хорошо известного источника систематической ошибки охвата, поскольку они не могут охватить домохозяйства без телефонов.

Невероятностная выборка[править | править код]

Многие исследования основаны не на вероятностных выборках, а скорее на поиске подходящей группы респондентов для заполнения опроса. Вот некоторые распространенные примеры невероятностной выборки [13].

  • Выборки суждения: исследователь решает, каких членов населения включить в выборку, основываясь на своем суждении. Исследователь может предоставить альтернативное обоснование репрезентативности выборки. Основное предположение состоит в том, что исследователь будет выбирать единицы, характерные для совокупности. Этот метод может быть подвержен предвзятости и восприятию исследователя [14].
  • Образцы снежного кома: часто используются, когда целевая популяция редка. Члены целевой совокупности привлекают к участию в опросе других представителей совокупности.
  • Выборки квот: выборка предназначена для включения определенного количества людей с определенными заданными характеристиками. Например, сто любителей кофе. Этот тип выборки распространен в исследованиях рынка, не основанных на вероятностях.
  • Удобные выборки: выборка состоит из лиц, к которым легче всего получить доступ для заполнения анкеты.

В невероятностных выборках взаимосвязь между целевой совокупностью и выборкой исследования неизмерима, а потенциальные систематические ошибки неизвестны. Опытные пользователи невероятностных выборок исследования склонны рассматривать опрос как экспериментальное условие, а не как инструмент для измерения населения, и проверяют результаты на наличие внутренне непротиворечивых взаимосвязей.

Смотрите также[править | править код]

Рекомендации[править | править код]

  1. Non-Probability Sampling - AAPOR. www.aapor.org. Дата обращения: 24 мая 2020. Архивировано 19 августа 2020 года.
  2. Weisberg, Herbert F. (2005), The Total Survey Error Approach, University of Chicago Press: Chicago. p.231.
  3. Archived copy. Office of Management and Budget. Дата обращения: 17 июня 2009. Архивировано 16 августа 2021 года.
  4. Lohr. Brewer. Swedes
  5. Richard Valliant, Alan H. Dorfman, and Richard M. Royall (2000), Finite Population Sampling and Inference: A Prediction Approach, Wiley, New York, p. 19
  6. Salant, Priscilla, I. Dillman, and A. Don. How to conduct your own survey. No. 300.723 S3. 1994.
  7. Kish, L. (1965), Survey Sampling, New York: Wiley. p. 20
  8. Kish, L. (1965), Survey Sampling, New York: Wiley. p.59
  9. Why Sampling Works - AAPOR. Дата обращения: 2 июня 2023. Архивировано 30 июня 2022 года.
  10. Groves et al., Survey Methodology, Wiley: New York.
  11. Michael W. Link, Michael P. Battaglia, Martin R. Frankel, Larry Osborn, and Ali H. Mokdad, A Comparison of Address-Based Sampling (ABS) Versus Random-Digit Dialing (RDD) for General Population Surveys; Public Opinion Q, Spring 2008; 72: 6 - 27.
  12. Glossary - NCES Statistical Standards. nces.ed.gov. Дата обращения: 2 июня 2023. Архивировано 20 мая 2021 года.
  13. Survey Sampling Methods. www.statpac.com. Дата обращения: 2 июня 2023. Архивировано 22 февраля 2021 года.
  14. Government of Canada; Government of Canada, Statistics Canada Learning resources: Statistics: Power from data! Non-probability sampling. www150.statcan.gc.ca (28 января 2009). Дата обращения: 2 июня 2023. Архивировано 2 мая 2023 года.

Дальнейшее чтение[править | править код]

Учебник Гроувса и соавторов содержит обзор методологии опроса, включая недавнюю литературу по разработке опросников (на основе когнитивной психологии):

  • Роберт Гровс и др. Методология обследования. 2-е изд. 2010 г. ISBN 0-471-48348-6 .

Другие книги сосредоточены на статистической теории выборки обследований и требуют некоторых знаний по базовой статистике, как описано в следующих учебниках:

  • Дэвид С. Мур, Джордж П. Маккейб. Введение в практику статистики. 5-е изд. Фриман и компания, 2005 г. ISBN 0-7167-6282-X

В базовой книге Шеффера и соавторов используются квадратные уравнения из школьной алгебры:

  • Шеффер, Ричард Л., Уильям Менденхал, Р. Лайман Отт. Элементарная выборка обследования. 5-е изд. Бельмонт: Даксбери Пресс, 1996.

Для чтения Lohr, Särndal et alia и Cochran требуется больше математической статистики:

Исторически важные книги Деминга и Киша по-прежнему ценны для понимания социологами (особенно о переписи населения США и Институте социальных исследований Мичиганского университета):

Внешние ссылки[править | править код]