Семплирование (математическая статистика)

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

В математической статистике, семплирование — обобщенное название различных методов манипуляции с начальным распределением случайной величины или выборкой этой случайной величины, которые позволяют улучшить точность статистического результата, полученного на основе применения этого начального распределения или выборки. Например, уменьшить дисперсию среднего значения какой-либо характеристики, вычисленного с помощью выборки. Метод семплинга также является эффективным для увязывания статистических свойств выборки с целями моделирования, число которых может быть достаточно большим. Например, в [Чубуков Н.Н. Алгоритмизация калибровок мехатронных систем с использованием сэмплинга. Мехатроника, автоматизация, управление. 2013 г., №7] приводится следующий пример. Пусть случайный процесс представлен выборкой объема N: X(t1), X(t2), ..., X(tN). Необходимо решить три задачи: 1. Выполнить условно долгосрочный прогноз для X(tN+10); 2. Выполнить условно краткосрочный прогноз для X(tN+1); 3. Определить функцию X = X(t) для восстановления значения X в любой точке внутри выборки. Если взять для моделирования традиционный подход, ориентированный на единственность описания статистических свойств процесса, то результатом будут три одинаковые функции. Дело в том, что правилом расчета критерия качества модели не учитывались существенные детали: глубина прогноза, характер статистических трендов случайного процесса, представленного выборочными данными, и совершенно игнорировалась целевая специфика задач. Выходом из данного затруднения может стать использование системного принципа разнообразия. Этот принцип в последние три десятилетия все более активно внедряется в инженерные приложения математической статистики благодаря разработке таких методов перекрестной валидации данных, как бутстреп-анализ [Эфрон Б. Нетрадиционные методы многомерного статистического анализа: Сб. статей: Пер. с англ./ Предисловие Ю.П. Адлера, Ю.А. Кошевника. - М.: Финансы и статистика, 1988.- 263 с. ил.], метод группового учета аргументов [Ивахненко А.Г. Системы эвристической самоорганизации в технической кибернетике. Киев. Техника, 1971.-327с.] и др. Проявление принципа разнообразия в решениях статистических задач состоит в том, что на незнание вероятностных свойств исходных данных алгоритм отвечает разнообразием генерируемых моделей, каждая из которых подвергается кросс-проверке по определенной единой для всех моделей схеме. Таким образом, семплинг является современным методом, который может оказаться эффективным для ряда инженерных приложений математической статистики, в особенности, связанных с решением обратных задач. Семплинг реализует принцип разнообразия и может обобщать весь спектр средств статистического анализа, основанный на управлении исходными данными. Под семплингом понимается набор приемов для разбиения исходной выборки на рабочие и контрольные участки по определенным правилам. На рабочих участках выполняется расчет параметров «конкурирующих» моделей, на контрольных оценивается их способность восстанавливать значения, которые не использовались для расчета параметров. Семплирование устраняет основное препятствие, объективно присутствующее в обратных задачах. Его причина которого кроется в невозможности установления строгой математической связи между варьируемым параметром и величиной критерия. При этом семплинг автоматически переводит алгоритм структурно-параметрической идентификации модели в разряд эвристических. В отношении вышеприведенного примера, первому случаю - «длинной» экстраполяции за пределы выборки, соответствует вариант семплинга с исключением из расчетов параметров модели десяти последних выборочных значений подряд. Контрольным будет десятый отсчет. Рабочая подвыборка составит все значения, за исключением этой десятки. Затем альтернативным перебором определяется наилучшая модель, которая точнее других спрогнозировала контрольную точку. Изменением положения исключенных отсчетов, без нарушения их числа и неразрывности, формируется статистика невязок, применимая для расчета критерия. Алгоритм как бы «экзаменует» модели по экстраполяции на заданную глубину, и выбирает из них ту, которая наиболее точно улавливает тренды, содержащие информацию о значениях на лаге длиной в десять отсчетов. Второй задаче будет соответствовать семплирование с исключением из расчетов по одной контрольной точке, с комбинированием количества, и порядка учитываемых для прогноза предыдущих значений. В третьей задаче будет оправдано дробление выборки на взаимопроникающие блоки, когда контрольные значения «вкраплены» между рабочими. Длина таких блоков и глубина их взаимопроникновения должна учитывать интервалы между соседними точками диапазона, требуемые устойчивость и точность оценок. Так, третьей задаче может соответствовать исключение из расчетов каждого третьего отсчета выборки и применение исключенных данных для контроля с циклическим переназначением контрольных и рабочих подвыборок. Выбор вариантов семплинга неоднозначен, и определяется на основе опыта и знаний оператора о свойствах исходных данных, цели решаемой задачи, а также может подбираться или уточняться экспериментально. Количество приемлемых способов разбиения диапазона на порядки превосходит объем выборки, и дает достаточное разнообразие средств для выражения полезности моделей. Семплинг может оказаться эффективным в решении обратных задач, поскольку он является: - альтернативой морально устаревшему параметрическому способу проверки гипотез о принадлежности данных теоретическому распределению; - эвристическим и открытым по отношению к оператору, выбирающему из заданного набора вариант семплинга, соответствующий специфике задачи; - средой формирования нормированных критериальных функций, удобных для моделирования цели, статистической корректировки цели, и количественно отражающей близость к ней; - средством построения эмпирических распределений, что позволяет накапливать статистику, определять или уточнять вариант семплинга и оценивать достоверность результатов; - экономически перспективным, способным выделять наименьший достаточный для решаемой конкретной задачи набор выборочных данных из диапазона, что является интересным с точки зрения снижения затрат; - повышающим интеллектуальность систем управления за счет придания им системных свойств целесообразности, целостности, рациональности, иерархичности, самоорганизации и достаточного разнообразия.

Виды семплирования[править | править исходный текст]