Матрица мер конвергенции

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Матрица мер конвергенции — матрица содержащая в качестве элементов меры сходства объектов. Матрица отражает попарное сходство объектов. Сходство является показателем, измеренном в порядковой шкале и, следовательно, возможно лишь определение отношений вида: «больше», «меньше» или «равно».

Матрица абсолютных мер конвергенции[править | править вики-текст]

Ha основе матрицы данных легко можно рассчитать матрицу абсолютных мер конвергенций, что, например, для конечных и дескриптивных множеств соответствует матрице пересечений размером n^2. Для вероятностей аналог этой матрицы носит название матрицы совместных вероятностей, а для информационной интерпретации это матрица информационных функций. Матрица симметрична относительно диагонали[1]:

 \begin{bmatrix}
  m_{11} & \cdots & m_{1j} & \cdots & m_{1n} \\
  \vdots & \cdots & \vdots & \cdots & \vdots \\
  m_{i1} & \cdots & m_{ij} & \cdots & m_{in} \\
  \vdots & \cdots & \vdots & \cdots & \vdots \\
  m_{n1} & \cdots & m_{nj} & \cdots & m_{nn} \\
\end{bmatrix}


Этот тип матрицы является основным «документом» исследования (после первичной матрицы данных), так как матрица пересечений содержит информацию о числе признаков каждого объекта (по диагонали) и число признаков общих для каждой пары сравниваемых объектов (на пересечении соответствующих столбца и строки). Достоинство данной матрицы состоит в том, что по данным этой матрицы можно рассчитать другие типы матриц (матрицы включения, сходства, транзитивного замыкания и др.), то есть реализовать принцип воспроизводимости. Элементы матрицы пересечений определяются по формуле (известна как мера процентного сходства):

 m_{ij} = \sum_{k=1}^r min(a_{ik},a_{jk}),

где  a_{ik} \geqslant 0; a_{jk}) \geqslant 0  — элементы первичной матрицы данных. Если элементы матрицы нормировать, то получаем относительную матрицу мер конвергенции, которая очень легко вычисляется (в сравнении с другими матрицами конвергенции).

Матрица относительных несимметричных мер конвергенции[править | править вики-текст]

Данная матрица несимметрична относительно диагонали. Широко известна под названием матрица включения Её можно получить двумя способами: определить две несимметричные меры сходства для каждой пары объектов или получить матрицу из матрицы абсолютных мер конвергенции. Для второго варианта необходимо элементы каждой строки матрицы пересечения разделить на соответствующий этой строке диагональный элемент:

 \begin{bmatrix}
  m_{11}/m_{11} & \cdots & m_{1j}/m_{11} & \cdots & m_{1n}/m_{11} \\
  \vdots & \cdots & \vdots & \cdots & \vdots \\
  m_{i1}/m_{ii} & \cdots & m_{ij}/m_{ii} & \cdots & m_{in}/m_{ii} \\
  \vdots & \cdots & \vdots & \cdots & \vdots \\
  m_{n1}/m_{nn} & \cdots & m_{nj}/m_{nn} & \cdots & m_{nn}/m_{nn} \\
\end{bmatrix}


Для устранения неоднозначности необходимо указать направление включения одного объекта в другой. Обычно указывают стрелкой и определяют включение слева направо. Из этой матрицы можно получить ориентированные графы включения-сходства при определённом пороге близости. В указанной матрице хорошо видны отношения между объектами, у которых сильно различается число признаков (разновеликие объекты). Следует особо отметить, что меры несимметричные более информативны в общем и особенно для разновеликих по числу признаков объектов, чем меры симметричные, так как последние, по сути, представляют собой усреднённые показатели и, следовательно, теряют часть информации об объектах, а несимметричные меры (включения) адекватно оценивают более распространённые в природе нетранзитивные отношения. Например, первый объект может включаться на 100 % во второй объект, а второй список, в свою очередь, включается только на 10 %. При этом симметричная мера не сможет адекватно отразить эти отношения, так как, например, 10 общих признаков значительны для одного объекта с 10 признаками, но не столь значимы для большого объекта с 100 признаками. Мера сходства Сёренсена в данном случае будет равна около 20 %.

Матрица относительных симметричных мер конвергенции[править | править вики-текст]

Более известна как матрица сходства[2]. Данная матрица симметрична относительно диагонали. Её можно получить также двумя способами: определить симметричную меру сходства для каждой пары объектов или рассчитать её из матрицы несимметричных мер конвергенции. Второй способ заключается в симметризации матрицы включения через осреднение двух несимметричных мер и требует согласованности мер в пределах одного класса эквивалентности. В общем виде матрица выглядит так:

 \begin{bmatrix}
  1 & \cdots & K_{1j} & \cdots & K_{1n} \\
  \vdots & \cdots & \vdots & \cdots & \vdots \\
  K_{i1} & \cdots & K_{ij} & \cdots & K_{in} \\
  \vdots & \cdots & \vdots & \cdots & \vdots \\
  K_{n1} & \cdots & K_{nj} & \cdots & 1 \\
\end{bmatrix}


По диагонали стоят 1, так как сходство объекта с самим собой максимально. Наиболее информативна она для существенно равновеликих объектов, то есть для объектов, количество признаков которых несущественно различается. Графически отношения сходства обычно выражается через графовые алгоритмы кластеризации. Концептуально матрица является двойственной матрице расстояний и, соответственно, в матрице расстояний по диагонали стоят нули.

Примечания[править | править вики-текст]

  1. Сёмкин Б. И., Куликова Л. С. Методика математического анализа списка видов насекомых в естественных и культурных биоценозах. Владивосток: ТИГ ДВНЦ АН СССР, 1981. 73 с.
  2. Дюран Б., Оделл П. Кластерный анализ. — М.: Статистика, 1977. — 128 с.