Семплирование (математическая статистика)

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

В математической статистике семплирование — обобщенное название методов манипуляции с начальной выборкой, которые позволяют выполнить структурно-параметрическую идентификацию наилучшей статистической модели случайного процесса.

Описание[править | править вики-текст]

Научная новизна метода семплинга состоит в том, что он является эффективным приемом для логичного смыслового увязывания статистических свойств выборки и цели моделирования. При этом семплинг повышает размерность критериального пространства, и одновременно выступает средством разрешения проблемы парето-оптимальности за счет разделения частных критериев и их ранжирования (структурный критерий рангом выше параметрического, поэтому эти критерии не вступают в противоречие). Н.Н. Чубуков приводит следующий пример[1]. Пусть случайный процесс представлен выборкой объёма : . Необходимо решить три задачи:

  1. Выполнить условно долгосрочный прогноз для ;
  2. Выполнить условно краткосрочный прогноз для ;
  3. Определить функцию для восстановления значения в любой точке внутри выборки.

Если взять для моделирования традиционный подход, ориентированный на единственность описания статистических свойств процесса, то результатом будут три совершенно одинаковые функции. Дело в том, что правилом расчета критерия качества модели не учитывались существенные детали: горизонт прогноза, характер статистических трендов случайного процесса, представленного выборочными данными, и совершенно игнорировалась целевая специфика задач.

Принцип разнообразия[править | править вики-текст]

Выходом из данного затруднения может стать использование в рамках семплинга системного принципа разнообразия. Данный принцип известен и в последнее время внедряется в инженерные приложения математической статистики благодаря методологии перекрестной валидации данных, представителями которых являются бутстреп-анализ[2], метод группового учета аргументов[3] и др. Проявление принципа разнообразия в решениях статистических задач состоит в том, что на незнание вероятностных свойств исходных данных алгоритм отвечает разнообразием генерируемых структур моделей, каждая из которых подвергается кросс-проверке по определенной единой для всех моделей схеме.

Задачи[править | править вики-текст]

Таким образом, семплинг является современным методом, который может оказаться практически полезным для решения задач математической статистики, в том числе, обратных и некорректных задач[4]. Семплинг реализует принцип разнообразия и может обобщать весь спектр средств статистического анализа, основанный на управлении исходными данными. Под семплингом понимается набор приемов для разбиения исходной выборки на рабочие и контрольные участки по определенным правилам. На рабочих участках выполняется расчет параметров «конкурирующих» моделей, на контрольных оценивается их способность восстанавливать значения, которые не использовались для расчета параметров.

Семплирование устраняет основное препятствие, объективно присутствующее в обратных задачах. Его причина кроется в невозможности установления строгой математической связи между варьируемым параметром и величиной критерия. При этом семплинг автоматически переводит алгоритм структурно-параметрической идентификации модели в разряд эвристических и делает его перспективным для создания систем искусственного интеллекта.

В отношении вышеприведенного примера, первому случаю — «длинной» экстраполяции за пределы выборки, соответствует вариант семплинга с исключением из расчетов параметров модели десяти последних выборочных значений подряд. Контрольным будет десятый отсчет. Рабочая подвыборка составит все значения, за исключением этой десятки. Затем альтернативным перебором определяется наилучшая модель, которая точнее других спрогнозировала контрольную точку. Изменением положения исключенных отсчетов, без нарушения их числа и неразрывности, формируется статистика невязок, применимая для расчета критерия. Алгоритм как бы «экзаменует» модели по экстраполяции на заданную глубину, и выбирает из них ту, которая наиболее точно улавливает "длинные" тренды, содержащие информацию о значениях на лаге длиной в десять отсчетов. При этом "короткострельные" модели будут дискриминироваться.

Второй задаче будет соответствовать семплирование с исключением из расчетов по одной контрольной точке, с комбинированием количества, и порядка учитываемых для прогноза предыдущих значений. В этом случае "длиннотрендовые" модели будут "подавляться", а дающим точные ближние прогнозы - напротив, будет отдаваться предпочтение.

В третьей задаче будет оправдано дробление выборки на взаимопроникающие блоки, когда контрольные значения «вкраплены» между рабочими. Длина таких блоков и глубина их взаимопроникновения должна учитывать интервалы между соседними точками диапазона, требуемые устойчивость и точность оценок. Так, третьей задаче может соответствовать исключение из расчетов каждого третьего отсчета выборки и применение исключенных данных для контроля с циклическим переназначением контрольных и рабочих подвыборок.

Преимущества[править | править вики-текст]

Выбор вариантов семплинга неоднозначен, и определяется на основе опыта и знаний оператора о свойствах исходных данных, цели решаемой задачи, а также может подбираться или уточняться экспериментально. Количество приемлемых способов разбиения диапазона на порядки превосходит объем выборки, и дает достаточное разнообразие средств для выражения полезности моделей. Семплинг может оказаться эффективным в решении обратных задач, и при разработке систем искусственного интеллекта, поскольку он является:

  • альтернативой морально устаревшему параметрическому способу проверки гипотез о принадлежности данных теоретическому распределению;
  • эвристическим и открытым по отношению к оператору, выбирающему из заданного набора вариант семплинга, соответствующий специфике задачи и ее целевому назначению;
  • средой формирования нормированных критериальных функций, удобных для моделирования цели, статистической корректировки цели, и количественно отражающей близость к ней;
  • средством построения эмпирических распределений, что позволяет накапливать статистику, определять или уточнять вариант семплинга и оценивать достоверность результатов;
  • средством разрешения проблемы Парето - проблемы многокритериального выбора;
  • экономически перспективным, способным выделять наименьший достаточный для решаемой конкретной задачи набор выборочных данных из диапазона, что является интересным с точки зрения снижения затрат;
  • повышающим интеллектуальность систем управления за счет придания им системных свойств целесообразности, целостности, рациональности, иерархичности, самоорганизации и достаточного разнообразия.

Виды семплирования[править | править вики-текст]

Примечания[править | править вики-текст]

  1. Чубуков Н. Н. Алгоритмизация калибровок мехатронных систем с использованием семплинга // Мехатроника, автоматизация, управление. 2013. № 7.
  2. Эфрон Б. Нетрадиционные методы многомерного статистического анализа: Сб. статей: Пер. с англ./ Предисловие Ю. П. Адлера, Ю. А. Кошевника. — М.: Финансы и статистика, 1988.- 263 с. ил.
  3. Ивахненко, 1971.
  4. Тихонов А.Н., Арсенин В.Я. Методы решения некорректных задач. — М.: Наука, 1979. — С. 283 с.

Литература[править | править вики-текст]

  • Чубуков Н.Н. Алгоритмизация калибровок мехатронных систем с использованием сэмплинга. Мехатроника, автоматизация, управление. 2013 г., № 7.
  • Эфрон Б. Нетрадиционные методы многомерного статистического анализа: Сб. статей: Пер. с англ./ Предисловие Ю. П. Адлера, Ю. А. Кошевника. — М.: Финансы и статистика, 1988.- 263 с. ил.
  • Ивахненко А. Г. Системы эвристической самоорганизации в технической кибернетике. — Киев: Техника, 1971. — 327 с.
  • Тихонов А. Н., Арсенин В. Я. Методы решения некорректных задач. — М.: Наука, 1979. — 283 с.