Анализ связей

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Ана́лиз свя́зей или анализ ссылок (от англ. «link analysis») — это метод анализа данных, используемый в рамках сетевого анализа для оценки отношений (связей) между узлами (объектами/акторами)[источник не указан 292 дня]. Отношения могут быть определены для различных типов узлов: людей, организаций, операций и т. д. Термин «link analysis» (один из вариантов перевода: «анализ взаимосвязей») обозначает процесс анализа совокупности взаимоотношений между разными объектами сети для выявления её характеристик[источник не указан 292 дня].

Первоначально данный метод использовался для борьбы с преступностью, прежде всего мошенничеством и терроризмом, в целях контрразведки и оптимизации средств информационной безопасности. Позднее данный метод нашёл своё применение в маркетинговых и медицинских исследованиях, а также при оптимизации алгоритмов поисковых систем.

Данный метод относится к группе методов Data Mining. Это группа итерационных и интерактивных алгоритмов обнаружения, анализа и визуализации различных закономерностей в данных. Анализ связей относится данной группе алгоритмов, и, как большинство методов данной группы, реализуется в рамках следующих шагов[стиль!][1]: Сбор данных, Обработка данных, Анализ данных и Визуализация данных.

История развития инструментария[править | править исходный текст]

Клеркс выделял три[2] периода в развитии инструментария реализации Анлиза связей. Первое поколение было представлено в 1975 как Anacpapa Chart Харпером и Харрисом[3]. Этот метод реализуется следующим образом: Исследователь занимается обработкой имеющихся данных, обозначая связи между акторами в виде матрицы взаимодействия. Затем исследователь строит соответствующий граф для визуализации данных и, в конечном итоге, анализирует полученную сеть, определяя показатели центральности (Patterns of interest). Данный метод является чрезвычайно трудоемким при рассмотрении больших объемов данных.

Второе поколение инструментов предоставляло возможность автоматизации построения графов для соответствующих матриц взаимодействия, однако ввод данных по прежнему необходимо было осуществлять вручную. Процедуры анализа данных также требовали активного участия исследователя, обладающего необходимым багажом знаний.

Третье поколение инструментов также даёт возможность автоматической визуализации связей между акторами. Более того, появляются средства, дающие возможность визуально ужимать большие объёмы данных в компактные пучки, что упрощает визуальный анализ данных для сложных моделей. Вычисление же основных показателей центральности осуществлялось также автоматически.

Сбор данных[править | править исходный текст]

Обзоры и опросы[править | править исходный текст]

При сборе сетевых данных, а именно при фиксации наличия или отсутствия социальных связей, в большинстве случаев используют отчеты респондентов. Обычно такие данные получают, предлагая респонденту перечислить тех агентов, с которыми он сам или организация, к которой он принадлежит, поддерживают прямые связи. Вид(или тип) этих связей оговаривается заранее и зависит от целей исследования. Когда популяция ограниченна (количество акторов — элементов будущей сети невелико), респондентов могут попросить просто перечислить их контакты, но чаще практикуются другие методы. Холланд и Ленхардт[4] использовали:

  1. дихотомические индикаторы присутствия или отсутствия данных типов взаимодействия, в которых могло фиксироваться число связей между респондентами;
  2. шкалы или ряды, дифференцирующие связи по интенсивности;
  3. методы парных сравнений различных взаимодействий на прочность.

Более системно техника сбора сетевых данных показана в процедуре Берта[5], где сначала выявлялось членство в респондентской сети по одному или нескольким параметрам, а потом, в зависимости от данных, получались дополнительные результаты, которые объясняли такую расстановку. Изучались следующие свойства сетей:

  1. атрибуты индивидов (элементов сети);
  2. возможные свойства связей между респондентами — частота контактов, интенсивность;
  3. интенсивность связей между парами респондентов, которая используется для измерения структурных свойств эгоцентричных сетей (например, определение плотности).

При изучении межорганизационных взаимодействий рекомендуется не ограничиваться свидетельствами лишь какого-либо одного из информантов, проблема отбора респондентов растет прямо пропорционально широте специализации данной организации. Для небольшого исследования вполне окажется достаточно качественного сетевого отчета от одного агента организации, однако такие отчеты стоит применять для изучения тех видов взаимодействий, которые отражают только лишь одну сторону деятельности информанта. Но при анализе организаций лучше анализировать информацию, полученную из отчетов нескольких агентов, а также подкреплённую документами организации (письма, служебные записки, отчёты, протоколы встреч).

Архивы[править | править исходный текст]

Для сбора качественных сетевых данных нужны значительные средства. Архивные источники требуют гораздо меньше затрат, и одно из их преимуществ в том, что они позволяют проводить ретроспективные исследования и следить за развитием изучаемых сетей. Здесь Анализ связей как инструмент Data Mining тесно связан с другим направлением анализа данных Text mining.

Процедура анализа связей[править | править исходный текст]

Итогом сбора и обработки эмпирических данных являются формализованные матрицы взаимодействия акторов изучаемой сети.

На основе полученных данных в виде матрицы взаимодействия строится соответствующий граф, иллюстрирующий отношения акторов в сети.

Вычисление основных показателей[править | править исходный текст]

Ограничения подхода[править | править исходный текст]

Некоторыми исследователями[6] отмечается, что помимо высокого риска получения субъективных оценок сети от информантов, существует риск субъективного восприятия, полученных данных со стороны исследователя и таким образом даже анализ одной и той же информации может привести к получению различных выводов.

И тем не менее существует ряд общепринятых техник оценки свойств сети и связей между её акторами.

Размер сети[править | править исходный текст]

Основной индикатор, представляющий размер сети — число прямых связей, включенных в индивидуальные объединения. Размер сети может изменяться от минимального значения 1 (2 вершины в графе) до максимально возможного значения (g-1), где g— количество вершин графа.

Сетевая плотность[править | править исходный текст]

Обычно под ней понимают значительную силу связанности между объединениями в сети или (для дихотомических измерений) соотношение наличествующих и возможных связей.

Плотность связей неориентированного графа можно вычислить по формуле:

Плотность неориентированного графа






,где L — количество наблюдаемых связей в данном графе или подграфе. Плотность связей в ориентированном графе вычисляется по формуле:

Плотность ориентированного графа







Однако с помощью плотности достаточно проблематично выявить структурные сцепления, если сеть имеет подгруппы, и при изменении размера сети может происходить трансформация плотности.

Центральность и централизация[7][править | править исходный текст]

Измерение степени центральности[править | править исходный текст]

При данном подходе важно количество акторов, с которыми связан данный актор. В простейшем случае это просто подсчет числа связей актора по следующей формуле:

Степень центральности актора






Для того чтобы можно было сравнивать степень центральности актора не только внутри одной сети, но и между сетями разной структуры, необходимо рассчитать стандартизированную оценку центральности по следующей формуле:

Нормированная степень центральности актора









Также можно рассчитать степень центральности для всей сети:

Степень центральности сети









Часто бывает необходимо сравнить различные структуры и определить, какая же из них обеспечивает наилучшую централизацию акторов. Для этого существует формула подсчёта нормированной степень центральности для всей сети:

Нормированный к-т. близости центральности сети









Плотность центральности[править | править исходный текст]

При данном подходе измеряется плотность центральности — насколько близко актор располагается относительно других акторов. То есть При таком подходе централь — это позиция, из которой необходимо делать минимальное количество шагов ко всем остальным позициям группы.

Плотность центральности актора измеряется следующим образом:

Плотность центральности актора









Здесь d(ni,nj) - число связей между акторами ni и nj. Максимальное значение индекса равно (g-1)-1. Таким образом, нормированный коэффициент плотности центральности актора рассчитывается по следующей формуле:

Нормированная близость центральности актора








Нормированная плотность центральности сети рассчитывается по формуле:

Нормированная близость центральности сети








Центральность как посредничество[править | править исходный текст]

В рамках данного подхода центральность рассматривается как контроль связей между определёнными позициями. Так, если кратчайшее расстояние между акторами n2 и n3 n2, n1, n4 и n3, то позиции n1 и n4 являются контролирующими по отношению к паре акторов n2 и n3.

Центральность посредничества актора можно рассчитать по формуле:

Центральность посредничества актора








Здесь gik(ni) - число кратчайших путей, которые проходят через атор ni. Поскольку максимальное количество связей между всеми вершинами графа равно (g-1)(g-2)/2, то нормированная оценка центральности посредничества актора вычисляется соответственно по формуле:

Нормированная центральность посредничества актора









Стандартизированная оценка центральности сети можно рассчитывается по следующей формуле:

Нормированный к-т. центральности посредничества сети









Эквивалентность[править | править исходный текст]

Часто при описании структурных свойств сети прибегают к понятиям структурного сходства отдельных акторов. Выявление структурно похожих позиций позволяет упростить граф, объединяя схожие по своим структурным свойствам акторы в новые, корпоративные акторы. Соответственно для выявления эквивалентности между двумя позициями как правило используется следующая формула, предложенная Бёртом[8]

Эквивалентность между двумя позициями









См. также[править | править исходный текст]

Примечания[править | править исходный текст]

  1. Ahonen, H., Features of Knowledge Discovery Systems.
  2. Klerks, P. (2001). «The network paradigm applied to criminal organizations: Theoretical nitpicking or a relevant doctrine for investigators? Recent developments in the Netherlands». Connections 24: 53–65. Шаблон:Citeseerx.
  3. Harper and Harris, The Analysis of Criminal Intelligence, Human Factors and Ergonomics Society Annual Meeting Proceedings, 19(2), 1975, pp. 232-238.
  4. Holland P. W., LeinhardtS. The structural implications of measurement error in sociometry // J. Match. Sociol, 1973. Vol. 3. P. 85-111.
  5. Burt R. S. Models of network structure//Annu. Rev. Sociol, 1980. Vol. 6. P. 79-141.
  6. McGrath, C., Blythe, J., Krackhardt, D., Seeing Groups in Graph Layouts
  7. Freeman L. С Centrality in social networks, conceptual clarifications / / Soc. Networks, 1979. Vol. 1. P. 215-236.
  8. Burt R. S. Social contagion and innovation: cohesion versus structural equivalence.//American Journal of Sociology, 1987.92: 1287-1335.

Источники[править | править исходный текст]

  • Градосельская Г. В. Сетевые измерения в социологии: Учебное пособие / Под ред. Г. С. Батыгина. М.: Издательский дом «Новый учебник», 2004.
  • Чубукова И.А. Data Mining. М.: Бином, 2008
  • Thelwall M. Link Analysis: An Information Science Approach. New York: Academic Press, 2004.