Факторный анализ

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Факторный анализ — многомерный метод, применяемый для изучения взаимосвязей между значениями переменных. Предполагается, что известные переменные зависят от меньшего количества неизвестных переменных и случайной ошибки.

Краткая история[править | править вики-текст]

Факторный анализ впервые возник в психометрике и в настоящее время широко используется не только в психологии, но и в нейрофизиологии, социологии, политологии, в экономике, статистике и других науках. Основные идеи факторного анализа были заложены английским психологом и антропологом, основателем евгеники Гальтоном Ф. (1822—1911), внесшим также большой вклад в исследование индивидуальных различий. Но в разработку Факторного анализа внесли вклад многие ученые. Разработкой и внедрением факторного анализа в психологию занимались такие ученые как Спирмен Ч. (1904, 1927, 1946), Терстоун Л. (1935, 1947, 1951) и Кеттел Р. (1946, 1947, 1951). Также нельзя не упомянуть английского математика и философа Пирсона К., в значительной степени развившего идеи Ф. Гальтона, американского математика Хотеллинга Г., разработавшего современный вариант метода главных компонент. Внимания заслуживает и английский психолог Айзенк Г., широко использовавший Факторный анализ для разработки психологической теории личности. Математически факторный анализ разрабатывался Хотеллингом, Харманом, Кайзером, Терстоуном, Такером и др. Сегодня факторный анализ включён во все пакеты статистической обработки данных — R, SAS, SPSS, Statistica и т. д.

Задачи и возможности факторного анализа[править | править вики-текст]

Факторный анализ позволяет решить две важные проблемы исследователя: описать объект измерения всесторонне и в то же время компактно. С помощью факторного анализа возможно выявление скрытых переменных факторов, отвечающих за наличие линейных статистических корреляций между наблюдаемыми переменными.

Таким образом можно выделить 2 цели Факторного анализа:

  • определение взаимосвязей между переменными, (классификация переменных), т. е. «объективная R-классификация»[1][2];
  • сокращение числа переменных необходимых для описания данных.

При анализе в один фактор объединяются сильно коррелирующие между собой переменные, как следствие происходит перераспределение дисперсии между компонентами и получается максимально простая и наглядная структура факторов. После объединения коррелированность компонент внутри каждого фактора между собой будет выше, чем их коррелированность с компонентами из других факторов. Эта процедура также позволяет выделить латентные переменные, что бывает особенно важно при анализе социальных представлений и ценностей. Например, анализируя оценки, полученные по нескольким шкалам, исследователь замечает, что они сходны между собой и имеют высокий коэффициент корреляции, он может предположить, что существует некоторая латентная переменная, с помощью которой можно объяснить наблюдаемое сходство полученных оценок. Такую латентную переменную называют фактором. Данный фактор влияет на многочисленные показатели других переменных, что приводит нас к возможности и необходимости выделить его как наиболее общий, более высокого порядка. Для выявления наиболее значимых факторов и, как следствие, факторной структуры, наиболее оправданно применять метод главных компонент (МГК). Суть данного метода состоит в замене коррелированных компонентов некоррелированными факторами. Другой важной характеристикой метода является возможность ограничиться наиболее информативными главными компонентами и исключить остальные из анализа, что упрощает интерпретацию результатов. Достоинство МГК также в том, что он — единственный математически обоснованный метод факторного анализа[1][3]. По утверждению ряда исследователей МГК не является методом факторного анализа, поскольку не расщепляет дисперсию индикаторов на общую и уникальную [4].Основной смысл факторного анализа заключается в выделении из всей совокупности переменных только небольшого числа латентных независимых друг от друга группировок, внутри которых переменные связаны сильнее, чем переменные, относящиеся к разным группировкам.

Факторный анализ может быть:

  • разведочным — он осуществляется при исследовании скрытой факторной структуры без предположения о числе факторов и их нагрузках;
  • конфирматорным, предназначенным для проверки гипотез о числе факторов и их нагрузках (примечание 2).

Условия применения факторного анализа[править | править вики-текст]

Практическое выполнение факторного анализа начинается с проверки его условий. В обязательные условия факторного анализа входят:

  • Все признаки должны быть количественными.
  • Число наблюдений должно быть не менее чем в два раза больше числа переменных.
  • Выборка должна быть однородна.
  • Исходные переменные должны быть распределены симметрично.
  • Факторный анализ осуществляется по коррелирующим переменным[3].

Основные понятия факторного анализа[править | править вики-текст]

  • Фактор — скрытая переменная
  • Нагрузка — корреляция между исходной переменной и фактором

Процедура вращения. Выделение и интерпретация факторов[править | править вики-текст]

Сущностью факторного анализа является процедура вращения факторов, то есть перераспределения дисперсии по определённому методу. Цель ортогональных вращений — определение простой структуры факторных нагрузок, целью большинства косоугольных вращений является определение простой структуры вторичных факторов, то есть косоугольное вращение следует использовать в частных случаях. Поэтому ортогональное вращение предпочтительнее. Согласно определению Мюльека простая структура соответствует требованиям:

  • в каждой строке матрицы вторичной структуры V должен быть хотя бы один нулевой элемент;
  • Для каждого столбца k матрицы вторичной структуры V должно существовать подмножество из r линейно-независимых наблюдаемых переменных, корреляции которых с k-м вторичным фактором — нулевые. Данный критерий сводится к тому, что каждый столбец матрицы должен содержать не менее r нулей.
  • У одного из столбцов каждой пары столбцов матрицы V должно быть несколько нулевых коэффициентов (нагрузок) в тех позициях, где для другого столбца они ненулевые. Это предположение гарантирует различимость вторичных осей и соответствующих им подпространств размерности r—1 в пространстве общих факторов.
  • При числе общих факторов больше четырех в каждой паре столбцов должно быть некоторое количество нулевых нагрузок в одних и тех же строках. Данное предположение дает возможность разделить наблюдаемые переменные на отдельные скопления.
  • Для каждой пары столбцов матрицы V должно быть как можно меньше значительных по величине нагрузок, соответствующих одним и тем же строкам. Это требование обеспечивает минимизацию сложности переменных.

(В определении Мьюлейка через r обозначено число общих факторов, а V — матрица вторичной структуры, образованная координатами (нагрузками) вторичных факторов, получаемых в результате вращения.) Вращение бывает:

  • ортогональным
  • косоугольным.

При первом виде вращения каждый последующий фактор определяется так, чтобы максимизировать изменчивость, оставшуюся от предыдущих, поэтому факторы оказываются независимыми, некоррелированными друг от друга (к этому типу относится МГК). Второй вид — это преобразование, при котором факторы коррелируют друг с другом. Преимущество косоугольного вращения состоит в следующем: когда в результате его выполнения получаются ортогональные факторы, можно быть уверенным, что эта ортогональность действительно им свойственна, а не привнесена искусственно. Существует около 13 методов вращения в обоих видах, в статистической программе SPSS 10 доступны пять: три ортогональных, один косоугольный и один комбинированный, однако из всех наиболее употребителен ортогональный метод «варимакс». Метод «варимакс» максимизирует разброс квадратов нагрузок для каждого фактора, что приводит к увеличению больших и уменьшению малых значений факторных нагрузок. В результате простая структура получается для каждого фактора в отдельности[1][3][2].

Главной проблемой факторного анализа является выделение и интерпретация главных факторов. При отборе компонент исследователь обычно сталкивается с существенными трудностями, так как не существует однозначного критерия выделения факторов, и потому здесь неизбежен субъективизм интерпретаций результатов. Существует несколько часто употребляемых критериев определения числа факторов. Некоторые из них являются альтернативными по отношению к другим, а часть этих критериев можно использовать вместе, чтобы один дополнял другой:

  • Критерий Кайзера или критерий собственных чисел. Этот критерий предложен Кайзером, и является, вероятно, наиболее широко используемым. Отбираются только факторы с собственными значениями равными или большими 1. Это означает, что если фактор не выделяет дисперсию, эквивалентную, по крайней мере, дисперсии одной переменной, то он опускается[1].
  • Критерий каменистой осыпи или критерий отсеивания. Он является графическим методом, впервые предложенным психологом Кэттелом. Собственные значения возможно изобразить в виде простого графика. Кэттел предложил найти такое место на графике, где убывание собственных значений слева направо максимально замедляется. Предполагается, что справа от этой точки находится только «факториальная осыпь» — «осыпь» является геологическим термином, обозначающим обломки горных пород, скапливающиеся в нижней части скалистого склона[1]. Однако этот критерий отличается высокой субъективностью и, в отличие от предыдущего критерия, статистически необоснован. Недостатки обоих критериев заключаются в том, что первый иногда сохраняет слишком много факторов, в то время как второй, напротив, может сохранить слишком мало факторов; однако оба критерия вполне хороши при нормальных условиях, когда имеется относительно небольшое число факторов и много переменных. На практике возникает важный вопрос: когда полученное решение может быть содержательно интерпретировано. В этой связи предлагается использовать ещё несколько критериев.
  • Критерий значимости. Он особенно эффективен, когда модель генеральной совокупности известна и отсутствуют второстепенные факторы. Но критерий непригоден для поиска изменений в модели и реализуем только в факторном анализе по методу наименьших квадратов или максимального правдоподобия[1].
  • Критерий доли воспроизводимой дисперсии. Факторы ранжируются по доле детерминируемой дисперсии, когда процент дисперсии оказывается несущественным, выделение следует остановить[1]. Желательно, чтобы выделенные факторы объясняли более 80 % разброса. Недостатки критерия: во-первых, субъективность выделения, во-вторых, специфика данных может быть такова, что все главные факторы не смогут совокупно объяснить желательного процента разброса. Поэтому главные факторы должны вместе объяснять не меньше 50,1 % дисперсии.
  • Критерий интерпретируемости и инвариантности. Данный критерий сочетает статистическую точность с субъективными интересами. Согласно ему, главные факторы можно выделять до тех пор, пока будет возможна их ясная интерпретация. Она, в свою очередь, зависит от величины факторных нагрузок, то есть если в факторе есть хотя бы одна сильная нагрузка, он может быть интерпретирован. Возможен и обратный вариант — если сильные нагрузки имеются, однако интерпретация затруднительна, от этой компоненты предпочтительно отказаться[1][3].

Практика показывает, что если вращение не произвело существенных изменений в структуре факторного пространства, это свидетельствует о его устойчивости и стабильности данных. Возможны ещё два варианта: 1). сильное перераспределение дисперсии — результат выявления латентного фактора; 2). очень незначительное изменение (десятые, сотые или тысячные доли нагрузки) или его отсутствие вообще, при этом сильные корреляции может иметь только один фактор, — однофакторное распределение. Последнее возможно, например, когда на предмет наличия определённого свойства проверяются несколько социальных групп, однако искомое свойство есть только у одной из них.

Факторы имеют две характеристики: объём объясняемой дисперсии и нагрузки. Если рассматривать их с точки зрения геометрической аналогии, то касательно первой отметим, что фактор, лежащий вдоль оси ОХ, может максимально объяснять 70 % дисперсии (первый главный фактор), фактор, лежащий вдоль оси ОУ, способен детерминировать не более 30 % (второй главный фактор). То есть в идеальной ситуации вся дисперсия может быть объяснена двумя главными факторами с указанными долями[5]. В обычной ситуации может наблюдаться два или более главных факторов, а также остаётся часть неинтерпретируемой дисперсии (геометрические искажения), исключаемая из анализа по причине незначимости. Нагрузки, опять же с точки зрения геометрии, есть проекции от точек на оси ОХ и ОУ (при трёх- и более факторной структуре также на ось ОZ). Проекции — это коэффициенты корреляции, точки — наблюдения, таким образом, факторные нагрузки являются мерами связи. Так как сильной считается корреляция с коэффициентом Пирсона R ≥ 0,7, то в нагрузках нужно уделять внимание только сильным связям. Факторные нагрузки могут обладать свойством биполярности — наличием положительных и отрицательных показателей в одном факторе. Если биполярность присутствует, то показатели, входящие в состав фактора, дихотомичны и находятся в противоположных координатах[1].

Методы факторного анализа:

Примечания[править | править вики-текст]

  1. 1 2 3 4 5 6 7 8 9 Ким Дж.-О., Мьюллер Ч. У. «Факторный анализ: статистические методы и практические вопросы» / сборник работ «Факторный, дискриминантный и кластерный анализ»: пер. с англ.; Под. ред. И. С. Енюкова. — М.: «Финансы и статистика», 1989. — 215 с.
  2. 1 2 Электронный учебник по статистике. Москва, StatSoft. WEB: www.statsoft.ru/home/textbook/default.htm.
  3. 1 2 3 4 Шуметов В. Г. Шуметова Л. В. «Факторный анализ: подход с применением ЭВМ». ОрелГТУ, Орел, 1999. — 88 с.
  4. Brown, Timothy A. Confirmatory factor analysis for applied research. Guilford Press, 2006.
  5. Пажес Ж.-П. «Конфликты и общественное мнение. Новая попытка объединить социологов и математиков» // «Социологические исследования», 1991, № 7. — с.107-115.

Литература[править | править вики-текст]

  • Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. — М.: Мир, 1982. — С. 488.
  • Колин Купер. Индивидуальные различия. — М.: Аспект Пресс, 2000. — 527 с.
  • Гусев А. Н., Измайлов Ч. А., Михалевская М. Б. Измерение в психологии. — М.: Смысл, 1997. — 287 с.
  • Митина О. В., Михайловская И. Б. Факторный анализ для психологов. — М.: Учебно-методический коллектор Психология, 2001. — 169 с.
  • Факторный, дискриминантный и кластерный анализ / сборник работ под ред. Енюкова И. С. — М.: Финансы и статистика, 1989. — 215 с.
  • Пациорковский В. В., Пациорковская В. В. SPSS для социологов.  — М.: Учебное пособие ИСЭПН РАН, 2005. — 433 с.
  • Бююль А., Цёфель П. SPSS: Искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. — СПб.: ООО «ДиаСофтЮП», 2002. — 603 с.
  • Факторный, дискриминантный и кластерный анализ: Пер.с англ./Дж.-О. Ким, Ч. У. Мьюллер, У. Р. Клекка и др.; Под

ред. И. С. Енюкова. — М.: Финансы и статистика, 1989.— 215 с:

  • Остапенко Р. И. Основы структурного моделирования в психологии и педагогике: учебно-методическое пособие для студентов психолого-педагогического факультета. — Воронеж.: ВГПУ, 2012. — 116 с. — ISBN 978-5-88519-886-8

Ссылки[править | править вики-текст]