Поиск наилучшей проекции

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Поиском наилучшей проекции (англ. Projection Pursuit) называется статистический метод, состоящий в нахождении такой проекции многомерных данных, для которой достигает максимума некоторая функция качества проекции.

Область применения[править | править исходный текст]

Хотя люди хорошо визуально воспринимают информацию, они способны анализировать картинки только малых размерностей. Когда анализируют многомерные данные, образное восприятие неудобно. Эту проблему решают, рассматривая проекции данных размерности два или три. Для визуализации проекций данных используют обычные приемы: диаграммы рассеяния, гистограммы, ящиковые диаграммы и так далее.

Идея метода[править | править исходный текст]

Надо решить, какая проекция будет наиболее «интересной». Один из подходов к автоматизации выбора наиболее "интересной" проекции основывается на следующих соображениях (для наглядности будем рассматривать проекцию на прямую). Проекцию данных будем считать «неинтересной», если гистограмма имеет нормальную плотность распределения, как на рисунке 1.

Рисунок 1.JPG

Проекции с двухвершинным распределением, как на рисунке 2,

Рисунок 2.JPG

будем считать «интересными».

Двухвершинное (бимодальное) распределение считаем более интересным, так как оно указывает на возможное присутствие двух кластеров в данных.

Индекс проекции[править | править исходный текст]

Для автоматизации поиска наиболее "интересной" проекции используют специально подобранную функцию качества, которую часто называют индексом. Наилучшей объявляют ту проекцию, для которой функция качества максимальна. Поиск проекции многомерных данных, основанный на максимизации некоторой функции качества проекции называется поиском наилучшей проекции (Projection Pursuit). Выбор индекса определяет, насколько полезен будет результат. Опишем несколько вариантов функции качества проекции.

Поиск одномерной проекции[править | править исходный текст]

Введем обозначения. Пусть Х - р-мерный случайный вектор, далее будем предполагать, что вектор центрирован, то есть E(X)=0.

Обозначим α - р-мерный числовой вектор, нахождение этого вектора составляет задачу поиска наилучшей проекции, которая будет иметь вид a^TX.

В данном случае матрица данных имеет размерность p\times1, вектор X и есть матрица данных. Тогда индекс I(a) определяется как дисперсия линейной комбинации a^TX, при дополнительном условии нормировки a^Ta=1.

Распространённые индексы проекции[править | править исходный текст]

Подход Фридмана и Тьюки[править | править исходный текст]

Джером Фридман и Джон Тьюки (1974) измеряли, насколько «интересно» многомерное распределение Х, рассматривая индекс

I_{FT,h}(a)=n^{-1}\sum_{j=1}^n\hat{f}_{h,a}^2(a^TX_i),

где \hat{f}_{h,a} обозначает ядерную оценку плотности, полученную по спроектированным данным,

\hat{f}_{h,a}(z)=n^{-1}\sum_{j=1}^nK_h(z-a^TX_j).

Если многомерная случайная величина X имеет нормальное распределение, то каждая проекция z=a^TX имеет стандартное нормальное распределение, пока \|a\|=1 и X центрировано. Изменения в I_{FT,h}(a) относительно a указывают отклонения от нормальности.

Подход Hodges и Lehman[править | править исходный текст]

Индекс проекции определяется как \int(f')^2, где f – плотность распределения многомерной случайной величины X, которая является матрицей данных. Очень часто плотность нельзя посчитать явно или гораздо удобнее вместо плотности использовать ее оценку.

Hodges и Lehman (1956) показали, что, если E(X) = 0 и D(X) = 1, то минимум \int(f')^2 достигается на плотности Епанечникова, которая имеет вид f(z)=\max{\{0, c(b^2 - z^2)\}}, где c= \frac{3}{20\surd5} и b= \surd5 . Это - параболическая функция плотности, которая равна нолю вне интервала (-\surd5,\surd5). Таким образом, при использовании такого индекса наименее интересной будет являться плотность Епанечникова. Большое значение индекса указывает большое отклонение от параболической формы.

Альтернативный индекс Hodges и Lehman (1956) основан на максимизации энтропии, то есть \int(-f\log f) .

Если E(X)=0 и D(X)=1, то минимум индекса \int (f\log f) достигается на стандартной нормальной плотности. Это свойство является достоинством индекса, по сравнению с предыдущим вариантом. Действительно, интуитивно кажется, что нормальное распределение "менее интересно", чем распределение Епанечникова. Таким образом, используя индекс \int (f\log f), мы измеряем отклонение распределения от нормального.

Подход Фишера[править | править исходный текст]

В качестве еще одного индекса можно рассмотреть информацию Фишера, \int(f')^2/f. Вычисляя индекс энтропии, мы встречаемся с большими вычислительными сложностями, при выполнении которых приходится затрачивать много времени, что, конечно же, не очень удобно.

Подход Jones и Sibson[править | править исходный текст]

Jones и Sibson (1987) предложили рассмотреть отклонения от нормальной плотности как f(x)=\varphi(x)\{1+\varepsilon(x)\},

где функция \varepsilon удовлетворяет условиям

\int\varphi(u)\varepsilon(u)u^{-r}\emph{d}u=0, при r = 0,1,2.

Чтобы упростить вычисление индекса Jones и Sibson , удобно перейти к кумулянтам \kappa_3=\mu_3=E(X^3) , \kappa_4=\mu_4=E(X^4)-3 .

Поскольку стандартная нормальная плотность удовлетворяет условию \kappa_3=\kappa_4=0, индекс должен, по крайней мере, включить информацию до уровня симметрических отклонений (\kappa_3 или \kappa_4 не ноль) от нормальности. Самые простые из таких индексов - положительная определенная квадратичнаяная форма от \kappa_3 и \kappa_4 . При этом должна присутствовать инвариантность при замене знака данных, начиная с a^TX и -a^TX , мы должны получить тот же самый вид отклонения от нормальности. Заметим, что \kappa_3 нечетно, то есть \kappa_3(a^TX)=-\kappa_3(-a^TX). А \kappa_4 четно, то есть \kappa_4(a^TX)=\kappa_4(-a^TX). Квадратичная форма от \kappa_3 и \kappa_4, измеряющая отклонение от нормальности, не включает смешанный коэффициент \kappa_3\kappa_4. Следовательно, индекс, предложенный Jones и Sibson (1987) - это

I_{JS}(a)=\{\kappa_3^2(a^TX)+\kappa_4^2(a^TX)/4\}/12.

Этот индекс фактически измеряет различие \int f\log f-\int\varphi\log \varphi.

Проблемы реализации[править | править исходный текст]

Метод поиска наилучшей проекции может давать интересные результаты, но существует и много недостатков его реализации. Во-первых, трудно придумать правильную интерпретацию полученных результатов. Во-вторых, реализация метода может выполняться длительное время и требовать достаточно большого количества оперативной памяти компьютера. Кроме того, до сих пор остаются различия между человеческим визуальным представлением о наилучшей проекции и решением полученным при поиске наилучшей проекции. Эти проблемы пока не разрешены, "канонического" варианта метода нет, идут активные исследования.

Литература[править | править исходный текст]

  • Peter J. Huber, Projection Pursuit (Invited paper), Harvard University, The Annalas of Statistics, 13, No. 2 (1985), 435—475.
  • Jerome H. Friedman, Exploratory projection pursuit. J. Amer. Statist. Assoc., 82 (1987) 249—266. Software online.

См. также[править | править исходный текст]