Линейный дискриминантный анализ

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску


Линейный дискриминантный анализ (ЛДА, англ. Linear Discriminant Analysis, LDA), нормальный дискриминантный анализ (англ. Normal Discriminant Analysis, NDA) или анализ дискриминантных функций (англ. Discriminant Function Analysis) является обобщением линейного дискриминанта Фишера, метода, используемого в статистике, распознавании образов и обучении машин для поиска линейной комбинации признаков, которая описывает или разделяет два или более классов или событий. Получившаяся комбинация может быть использована как линейный классификатор, или, более часто, для снижения размерности перед классификацией.

ЛДА тесно связан с дисперсионным анализом (англ. ANalyse Of Variance=ANOVA) и регрессионным анализом, которые также пытаются выразить одну зависимую переменную в виде линейной комбинации других признаков или измерений[1][2]. Однако дисперсионный анализ использует качественные независимые переменные и непрерывную[en] зависимую переменную, в то время как дискриминантный анализ имеет непрерывные независимые переменные и качественную зависимую переменную (т.е. метку класса)[3]. Логистическая регрессия и пробит-регрессия больше похожи на ЛДА, чем дисперсионный анализ, так как они так же объясняют качественную переменную через непрерывные независимые переменные. Эти другие методы более предпочтительны в приложениях, в которых нет резона предполагать, что независимые переменные нормально распределены, что является фундаментальным предположением метода ЛДА.

ЛДА тесно связан также c методом главных компонент (МГК, англ. Principal Component Analysis, PCA) и факторным анализом тем, что они ищут линейные комбинации переменных, которые лучшим образом объясняют данные[4]. ЛДА явным образом пытается моделировать разницу между классами данных. МГК, с другой стороны, не принимает во внимание какую-либо разницу в классах, а факторный анализ строит комбинации признаков, опираясь скорее на различия, а не на сходства. Дискриминантный анализ отличается также от факторного анализа тем, что не является независимой техникой — для его работы должно быть определено различие между независимыми переменными и зависимыми переменными (последние называются также критериальными переменными).

ЛДА работает, когда измерения, сделанные на независимых переменных для каждого наблюдения, являются непрерывными величинами. Когда имеем дело с качественными независимыми переменными, эквивалентной техникой является дискриминантный анализ соответствий[5][6].

Дискриминантный анализ используется, когда группы известны априори (в отличие от кластерного анализа). Каждый случай должен иметь значение в одной или нескольких мер количественного предсказания и значение на групповой мере[7]. Выражаясь простыми терминами, анализ дискриминантных функций является классификацией, разбивающей объекты на группы, классы или категории некоторого типа.

История[править | править код]

Оригинальный дихотомический дискриминантный анализ разработал сэр Роналд Фишер в 1936[8]. Он отличается от дисперсионного анализа или многофакорного дисперсионного анализа[en], которые используются для предсказания одной (дисперсионный анализ) или нескольких (многофакторный дисперсионный анализ) непрерывных зависимых переменных по одной или более независимой качественной переменной. Анализ дискриминантных функций полезен для определения, является ли множество переменных эффективным в предсказании принадлежности категории[9].

ЛДА для двух классов[править | править код]

Рассмотрим множество наблюдений (называемых также признаками, атрибутами, переменными или измерениями) для каждого образца объекта или события с известным классом . Это множество образцов называется тренировочным набором[en]. Задача классификации тогда заключается в поиске хорошего предсказателя для класса любого представителя того же распределения (не обязательно из тренировочного множества), заданного только наблюдением [10].

ЛДА подходит к задаче с предположением, что условные плотности распределения вероятности и распределены нормально со средним и параметрами ковариации и соответственно. При таких предположениях байесово оптимальное решение предсказывает, что точка принадлежит второму классу, если отношение правдоподобия превосходит некоторое (пороговое) значение T, так что:

Без каких-либо дальнейших предположений получающийся классификатор называют КДА (Квадратичный Дискриминантный Анализ[en], англ. Quadratic Discriminant Analysis, QDA).

Вместо этого ЛДА делает дополнительное упрощающее предположение гомоскедастичности (т.е. что классы ковариации идентичны, так что ) и что ковариации имеют полный ранг. В этом случае несколько членов исключаются:

, поскольку является эрмитовой и описанный выше критерий решения становится пороговым значением для скалярного произведения

для некоторой пороговой константы c, где

Это означает, что критерий для входного вхождения в класс является функцией только от этой линейной комбинации известных наблюдений.

Часто полезно видеть это заключение в терминах геометрии: критерий входного содержаться в классе является функцией от проекции точки многомерного пространства на вектор (мы рассматриваем только направление вектора). Другими словами, наблюдение принадлежит , если соответствующий расположен на определённое стороне от гиперплоскости, перпендикулярной . Положение плоскости определяется пороговым значением c.

Предположения[править | править код]

Предположения дискриминантного анализа являются теми же, что и для многофакторного дисперсионного анализа. Анализ весьма чувствителен к выбросам и размер наименьшей группы должен быть больше, чем число предикторных (независимых) переменных[7].

  • Многомерная нормальность: Независимые переменные нормальны для любого уровня группирующей переменной [9][7].
  • Однородность дисперсии/ковариации (гомоскедастичность): Дисперсии среди групповых переменных те же самые по всем уровням предикторов. Это может быть проверено с помощью М-статистики Бокса[9]. Предлагается, однако, чтобы линейный дискриминантный анализ применялся, когда ковариации равны, а когда ковариации не равны, может быть использован квадратичный дискриминантный анализ[en][7].
  • Мультиколлинеарность: Сила предсказания может уменьшаться с увеличением корреляции между предикторными (независимыми) переменными [7].
  • Независимость: Объекты предполагаются случайно распределёнными и оценка по одной переменной для объекта независима от оценки по другой переменной[9][7].

Предполагается, что дискриминантный анализ относительно устойчив относительно небольших нарушений этих предположений[11] и было показано, что дискриминантный анализ может оставаться правдоподобным при применении дихотомических случайных величин (когда многомерная нормальность часто нарушается)[12].

Дискриминантные функции[править | править код]

Дискриминантный анализ работает путём создания одной или более линейной комбинаций предикторов, получая новую скрытую переменную для каждой функции. Эти функции называются дискриминантными функциями. Число возможных функций равно либо Ng-1, где Ng=числу групп, либо p (числу предикторов), в зависимости от того, какое из чисел меньше. Первая созданная функция максимизирует разницу между группами по этой функции. Вторая функция максимизирует разницу по этой функции, но не должна коррелировать с предыдущей функцией. Процесс продолжается созданием последовательности функций с требованием, чтобы новая функция не коррелировала со всеми предыдущими.

Если дана группа с множествами выборочного пространства, есть дискриминантное правило, такое, что, если , то . Дискриминантный анализ тогда находит «хорошие» области множеств для минимизации ошибки классификации, потому приводит к высокому проценту классификации[13].

Каждая функция сопровождается дискриминантной оценкой для определения, насколько хорошо она предсказывает принадлежность группе.

  • Коэффициенты структурной корреляции: Корреляция между каждым предиктором и дискриминантной оценкой для каждой функции. Это полная корреляция.[14]
  • Нормированные коэффициенты: Вклад каждого предиктора в каждую функцию, так что это является частной корреляцией[en]. Показывает относительную важность каждого предиктора как вклад в принадлежность группе для каждой функции.
  • Функции от центроидов группы: Средние дискриминантные оценки для каждой переменной для каждой функции. Чем дальше друг от друга находятся средние, тем меньше будет ошибка при классификации.

Правила дискриминанта[править | править код]

  • Метод максимального правдоподобия: Назначает x группе, максимизирующей (групповую) плотность популяции[15].
  • Правило дискриминанта Байеса: Назначает x группе, максимизирующей , где представляет априорную вероятность классификации и представляет плотность популяции[15].
  • Правило линейного дискриминанта Фишера: Максимизирует отношение между SSмежду и SSвнутри, и находит линейную комбинацию предикторов для предсказания группы[15].

Собственные значения[править | править код]

Собственное значение в дискриминантном анализе, это собственное значение для каждой функции[Что такое собственное значение для функции?]. Оно показывает, насколько функция разделяет группы. Чем больше собственное значение, тем лучше функция разделяет[7]. Здесь, однако, нужно быть осторожным, поскольку собственные значения не имеют верхнего предела [9][7]. Собственное значение можно рассматривать как отношение SSмежду и SSвнутри как в дисперсионном анализе, когда зависимая переменная является дискриминантной функцией, а группы являются уровнями IV[9]. Это означает, что наибольшее собственное значение ассоциировано с первой функцией, второе по величине ассоциировано со второй и т.д..

Величина эффекта[править | править код]

Некоторые предлагают использовать собственные значения как меру величины эффекта[en], однако в общем случае это не поддерживается [9]. Вместо этого предпочтительнее в качестве меры эффекта использовать каноническую корреляцию. Она подобна собственному значению, но является квадратным корнем отношения SSмежду и SSполное. Она равна корреляции между группами и функцией[9].

Другая популярная мера размера эффекта — процент дисперсии[прояснить] для каждой функции. Её можно вычислить по формуле: , где является собственным значением для функции, а является суммой всех собственных значений. Величина указывает нам, насколько точно предсказание, даваемое конкретной функцией по сравнению с другими функциями[9].

Процент правильной классификации может быть проанализирован как размер эффекта[9].

Канонический дискриминантный анализ для k классов[править | править код]

Канонический дискриминантный анализ (англ. Canonical discriminant analysis, CDA) находит оси (k − 1 канонических координат, где k — число классов), которые лучшим образом разделяют категории. Эти линейные функции не коррелируют и определяют, в результате, оптимальное k − 1 мерное пространство через n-мерное облако данных, которые лучшим образом разделяют k групп. См. «ЛДА с несколькими классами» ниже.

Линейный дискриминант Фишера[править | править код]

Термины линейный дискриминант Фишера и ЛДА часто используют как равнозначные, хотя исходная статья Фишера [1] в действительности описывает немного другой дискриминант, который не делает таких предположений, какие делает ЛДА, например, нормальное распределение классов или одинаковость ковариации классов.

Предположим, что два класса наблюдений имеют средние и ковариации . Тогда линейная комбинация признаков будет иметь средние и дисперсии для . Фишер определял разделение между этими двумя распределениями как отношение дисперсии между классами и дисперсии внутри классов:

Эта мера является, в некотором смысле, мерой отношения сигнал/шум для разметки класса. Можно показать, что максимальное разделение будет, когда

Если предположения ЛДА выполняются, вышеприведённое равенство эквивалентно ЛДА.

Заметьте, что вектор является нормалью дискриминантной гиперплоскости. В качестве примера, в двумерной задаче прямая, наилучшим образом разделяющая две группы, является перпендикуляром к .

В общем случае точки данных, которые разделяют, проектируются на . Затем выбирается пороговое значение, которое наилучшим образом разделяет данные, исходя из одномерного распределения. Не существует общего правила для выбора порога. Однако, если проекции точек из обоих классов проявляют примерно то же самое распределение, хорошим выбором будет гиперплоскость между проекциями двух средних, и . В этом случае параметр c в пороговом условии может быть найден явно:

.

Метод Оцу связан с линейным дискриминантом Фишера и был создан для бинаризации гистограммы пикселей в монохромном изображении путём оптимального выбора порога чёрное/белое, который минимизирует дисперсии внутри классов и максимизирует дисперсии между классами.

ЛДА с несколькими классами[править | править код]

В случае, когда имеется более двух классов, анализ, используемый в получении дискриминанта Фишера, может быть расширен до получения подпространства, которое содержит все вариации классов [14][16]. Это обобщение принадлежит К. Р. Рао[17]. Предположим, что каждый из C классов имеет среднее и ту же ковариацию . Тогда разброс вариации классов можно определить как выборочную ковариацию средних класса

,

где является средним средних для классов. Отделитель класса в направлении в этом случае будет задаваться величиной

Это означает, что когда является собственным вектором , величина для отделения будет равна соответствующему собственному значению.

Если диагонализируема, вариативность между признаками будет содержаться в подпространстве, натянутом на собственные вектора, соответствующие C − 1 наибольшим собственным значениям (поскольку ранг не превосходит C − 1). Эти собственные вектора главным образом используются в отборе признаков, как в МГК. Собственные вектора, соответствующие меньшим собственным значениям, очень чувствительны к точному выбору тренировочных данных и часто необходимо применение регуляризации, как описано в следующей секции.

Если требуется классификация, имеется много альтернативных подходов, которые можно использовать вместо снижения размерности. Например, классы могут быть разбиты и может быть использован стандартный дискриминант Фишера или ЛДА для классификации каждой части. Общим примером такого подхода является «один против остальных», когда точки одного класса укладываются в одну группу, а всё остальное укладывается в другую группу, затем применяется ЛДА. Это даёт C классификаторы, результаты которых комбинируются. Другой общий метод — попарная классификация, когда создаётся новый классификатор для каждой пары классов (что даёт в общей сложности C(C − 1)/2 классификаторов), и индивидуальные классификаторы комбинируются для получения конечной классификации.

Инкрементальный алгоритм ЛДА[править | править код]

Типичная имплементация техники ЛДА требует, чтобы все пробы были доступны сразу. Однако существуют ситуации, когда весь набор данных недоступен и входные данные получаются в виде потока. В этом случае желательно для выделения признаков ЛДА иметь возможность обновлять вычисленные признаки ЛДА путём просмотра новых проб без прогона всего алгоритма на полном наборе данных. Например, во многих приложениях реального времени, таких как мобильная робототехника или распознавание лиц, важно обновлять выделенные признаки ЛДА, как только новое наблюдение становится доступным. Техника ЛДА выделения признаков, которая может обновлять признаки ЛДА просто путём обработки новых образцов, называется инкрементальным алгоритммом ЛДА и эта идея интенсивно изучается последние два десятилетия[18]. Каттерджи и Ройчаудхари предложили инкрементальный самоорганизующийся алгоритм ЛДА для обновления признаков ЛДА[19]. В другом труде Демир и Озмехмет предложили алгоритмы онлайнового локального обучения для обновления признаков ЛДА инкрементально, используя коррекцию ошибок и правила обучения Хебба[20]. Позднее Алияри, Руджич и Могаддам разработали быстрый инкрементальный алгоритм для обновления признаков ЛДА путём наблюдения новых образцов[18].

Практическое применение[править | править код]

На практике классы средних и ковариации неизвестны. Они могут, однако, быть оценены по тренировочному набору. Может быть использован либо метод максимального правдоподобия, либо метод оценки апостериорного максимума вместо точного значения в обоих равенствах. Хотя оценки ковариации могут в некотором смысле считаться оптимальными, это не значит, что дискриминант, полученный подстановкой этих значений, оптимален в любом смысле, даже если предположение о нормальном распределении классов верно.

Другая трудность в применении ЛДА и дискриминантного метода Фишера к вещественным данным появляется, когда число измерений на каждой выборке (т.е. размерность каждого вектора данных) достигает числа проб в каждом классе[4]. В этом случае оценки ковариации не имеют полного ранга и не могут быть обращены. Есть несколько путей обойти это. Один из путей — использование псевдообратной матрицы вместо обычной обратной в вышеприведённых формулах. Однако лучшая числовая устойчивость может быть достигнута путём проекции задачи в подпространство, натянутое на [21]. Другая стратегия работы с малыми размерами выборки заключается в использовании сжимающей оценки[en] матрицы ковариации, которая может быть математически представлена как

где является единичной матрицей, а является интенсивностью сжатия или параметром регуляризации. Это приводит к понятию регулярного дискриминантного анализа[22] или дискриминантного анализа со сжатием[23].

Также во многих практических случаях линейные дискриминанты не подходят. ЛДА и дискриминант Фишера можно расширить для применения в нелинейной классификации c помощью ядерного трюка. Здесь исходные наблюдения эффективно отображаются в нелинейное пространство большей размерности. Линейная классификация в этом нелинейном пространстве тогда эквивалентна нелинейной классификации в исходном пространстве. Наиболее часто применяемым примером такого подхода является ядерный дискриминант Фишера[en].

ЛДА можно обобщить до мультидискриминантного анализа[en], в котором c становится качественной переменной с N возможными состояниями, а не двумя. Аналогично, если плотности распределения для классов нормальны и имеют одинаковые ковариации, достаточные статистики для являются значениями N проекций, которые являются подпространством, натянутым на N средних, аффинно спроецированных с помощью обратной ковариационной матрицы. Эти проекции можно найти путём решения обобщённой задачи собственных значений, где числитель является ковариационной матрицей, образованной трактовкой средних как выборки, а знаменатель является общей ковариационной матрицей. См. «ЛДА с несколькими классами выше.

Приложения[править | править код]

Вдобавок к примерам, данным ниже, ЛДА применяется в позиционировании[en] и управлении продуктом.

Прогноз банкротства[править | править код]

В прогнозе банкротства[en], основанном на учётных показателях и других финансовых переменных, линейный дискриминантный анализ был первым статистическим методом, применённым для систематического объяснения, какие фирмы обанкротятся или выживут. Несмотря на ограничения, включая известное неверность для учётных показателей предположения о нормальном распределении для ЛДА, модель 1968 года Эдварда Альтмана остаётся лидирующей моделью в практических приложениях.

Распознавание лиц[править | править код]

В компьютеризированной системе распознавания лиц[en] каждое лицо представлено большим числом значений пикселов. Линейный дискриминантный анализ применяется здесь главным образом для сокращения числа признаков к более управляемому числу перед попыткой классификации. Каждая из новых размерностей является линейной комбинацией значений пикселов, образуя шаблон. Линейные комбинации, полученные использованием линейного дискриминанта Фишера, называются лицами Фишера, в то время как комбинации, полученные с помощью метода главных компонент, называются собственными лицами[en][24].

Маркетинг[править | править код]

В маркетинге дискриминантный анализ часто использовался для определения факторов, которые отличают различные типы пользователей и/или продуктов на основе опросов или других форм сбора данных. Ныне для этих целей обычно применяется логистическая регрессия или другие методы. Использование дискриминантного анализа в маркетинге можно описать в виде следующих шагов:

  1. Формулируем задачу и собираем данные. Определяем черты[en] потребительских свойств, которые потребители используют для оценки в этой категории. Используем технику количественного маркетингового исследования (такую как соцопросы) для сбора данных из выборки потенциальных потребителей относительно их оценки всех атрибутов продукта. Этап сбора данных обычно осуществляется профессионалами маркетингового исследования. Вопросы социального опроса просят респондентов оценить продукт значением от 1 до 5 (или от 1 до 7, или от 1 до 10) на ряде показателей, выбранных исследователями. Выбирается от пяти до двадцати показателей. Они могут включать такие свойства как простота использования, вес, точность, долговечность, цветовая гамма, цена или размер. Выбранные показатели будут меняться в зависимости от изучаемого продукта. Те же самые вопросы спрашиваются обо всех продуктах, подвергающихся изучению. Данные для продуктов кодируются и вводятся в статистические программы, такие как R, SPSS или SAS[en]. (Этот шаг совпадает с шагом при факторном анализе).
  2. Оцениваем коэффициенты дискриминантной функции и определяем статистическую значимость и обоснованность. Выбираем подходящий метод дискриминантного анализа. Прямой метод использует оценку дискриминантной функции, так что все предикторы оценивается одновременно. Пошаговый метод вводит предикторы последовательно. Следует использовать двухгрупповой метод, когда зависимая переменная имеет две категории или состояния. Многофакторный дискриминантный метод используется, когда зависимая переменная имеет три или больше категорийных состояний. Для проверки значимости можно использовать лямбда Уилкса[en] в SPSS или «F stat» в SAS. Наиболее распространённый метод для проверки обоснованности — разбить выборку на оценочную или аналитическую выборку и проверочную или отложенную выборку. Оценочная выборка используется для построения дискриминантной функции. Проверочная выборка используется для построения классификационной матрицы, которая содержит число правильно классифицированных и неправильно классифицированных случаев. Процент правильно классифицированных случаев называется коэффициентом попадания.
  3. Наносим результат на двумерный график, определяем размеры и интерпретируем результат. Статистическая программа помогает отобразить результаты. График будет отображать каждый продукт (обычно в двухмерном пространстве). Расстояние между продуктами показывает, насколько они различаются. Размеры должны быть помечены исследователем. Это требует субъективного решения и они часто очень спорны. См. Построение карты восприятия[en].

Биомедицинские исследования[править | править код]

Основным приложением дискриминантного анализа в медицине является оценка тяжести состояния пациента и прогноз течения болезни. Например, в течение ретроспективного анализа пациенты делятся на группы согласно тяжести болезни – лёгкая, средняя и тяжёлая формы. Затем изучаются результаты клинического и лабораторного анализов, чтобы обнаружить переменные, которые достаточно отличаются в изучаемых группах. На основе этих переменных строятся дискриминантные функции, которые помогают объективно классифицировать течение болезни у пациентов в будущем, будет ли она протекать в лёгкой, средней или тяжёлой форме.

В биологии используются похожие принципы с целью классифицировать и определить группы различных биологических объектов, например, определить фаготип сальмонеллёзного энтерита, основываясь на преобразовании Фурье инфракрасного спектра[25], определить источник кишечной палочки изучая её вирулентные факторы[26], и т.д..

Науки о земле[править | править код]

Этот метод можно использовать для разделения зон гидротермальных изменений. Например, когда доступны различные данные из различных зон, дискриминантный анализ может найти структуры в данных и эффективно их классифицировать[27].

Сравнение с логистической регрессией[править | править код]

Дискриминационный функциональный анализ очень похож на логистическую регрессию и оба метода могут быть использованы для ответа на некоторые вопросы исследователей[9]. Логистическая регрессия не имеет столько допущений, как дискриминантный анализ. Однако, если допущения дискриминантного анализа выполняются, он является более мощным средством по сравнению с логистической регрессией[28]. В отличие от логистической регрессии, дискриминантный анализ может быть использован для малых размер выборок. Было показано, что когда размеры выборок одинаковы и имеет место гомогенность дисперсии/ковариации, дискриминантный анализ более точен[7]. Учитывая всё этоэж логистическая регрессия выбирается чаще, поскольку предположения дискриминантного анализа выполняются редко[8][7]

См. также[править | править код]

Примечания[править | править код]

  1. 1 2 Fisher, 1936, с. 179–188.
  2. McLachlan, 2004.
  3. Wetcher-Hendricks, 2011, с. 288.
  4. 1 2 Martinez, Kak, 2001, с. 228–233.
  5. Abdi, 2007, с. 270–275.
  6. Perriere, Thioulouse, 2003, с. 99–105.
  7. 1 2 3 4 5 6 7 8 9 10 ÇOKLUK, BÜYÜKÖZTÜRK, 2008, с. 73-92.
  8. 1 2 Cohen, Cohen, West, Aiken, 2003.
  9. 1 2 3 4 5 6 7 8 9 10 11 Green, Salkind, Akey, 2008.
  10. Venables, Ripley, 2002, с. 338.
  11. Lachenbruch, 1975.
  12. Klecka, 1980.
  13. Hardle, Simar, 2007, с. 289–303.
  14. 1 2 Garson, 2012.
  15. 1 2 3 Hardle, Simar, 2007, с. 289-303.
  16. Archived copy. Дата обращения 4 марта 2008. Архивировано 12 марта 2008 года. .
  17. Rao, 1948, с. 159–203.
  18. 1 2 Ghassabeh, Rudzicz, Moghaddam, 2015, с. 1999–2012.
  19. Chatterjee, Roychowdhury, 1997, с. 663–678.
  20. Demir, Ozmehmet, 2005, с. 421–431.
  21. Yu, Yang, 2001, с. 2067–2069.
  22. Friedman, 1989, с. 165–17.
  23. Ahdesmäki, Strimmer, 2010, с. 503–519.
  24. Термин Собственные лица применяется как указание на собственные вектора и собственные значения, которые используются при распознавании лиц методом главных компонент.
  25. Preisner, Guiomar, Machado, Menezes, Lopes, 2010, с. 3538–3544.
  26. David, Lynne, Han, Foley, 2010, с. 7509–7513.
  27. Tahmasebi, Hezarkhani, Mortazavi, 2010, с. 564–576.
  28. Hastie, Tibshirani, Friedman, 2009, с. 128.

Литература[править | править код]

Литература для дальнейшего чтения[править | править код]

Ссылки[править | править код]