Наука о сетях

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Наука о сетях — научная область, которая изучает комплексные сети, такие как коммуникационные, компьютерные, биологические, когнитивные и семантические сети, а также социальные сети, и рассматривает различные элементы или участников процесса, представленных узлами (или вершинами), и связи между элементами или участниками, представленные связями (или рёбрами). Эта научная область заимствует теории и методы из теории графов, статистической механики, интеллектуального анализа данных и визуализации информации из информатики, моделирование логического вывода из статистики и социальную структуру из социологии. Национальный научно-исследовательский совет США[en] определяет науку о сетях как «изучение сетевых представлений физических, биологических и социальных явлений, ведущее к прогнозирующим моделям этих явлений».[1]

Предпосылки и история[править | править код]

С изучением сетей сталкивались в различных дисциплинах и использовали эту модель как средство анализа сложных и связанных данных. Наиболее ранняя статья из этой области — знаменитая статья о семи кёнигсбергских мостах, написанная Леонардом Эйлером в 1736 году. Математическое описание вершин и рёбер Эйлером стало основой теории графов — области математики, которая изучает свойства попарных связей в сетевой структуре. Теория графов развивалась и нашла применение в химии[2].

Денеш Кёниг, венгерский профессор математики, написал в 1936 году первую книгу по теории графов, озаглавленную «Теория конечных и бесконечных графов»[3].

Социограмма Морено 1-го класса.

В 1930-х годах Якоб Леви Морено, психолог, работающий в традициях гештальтпсихологии, прибыл в США. Он разработал социограмму и представил её публике в апреле 1933 года на съезде студентов-медиков. Морено утверждал, что «до изобретения социометрии никто не знал, как выглядит в точности межличностная структура группы»[4]. Социограмма была представлением социальной структуры группы учеников начальной школы. Мальчишки дружили с мальчишками, а девочки — с другими девочками, лишь с одним исключением: один из мальчиков сказал, что ему нравится одна девочка, но чувство не было обоюдным. Сетевое представление социальной структуры произвело такое сильное впечатление, что о нем написали в газете The New York Times[5]. Социограмме нашли множество применений, на ее основе сформулировали подходы к анализу социальных сетей.

Применение теории вероятности в науке о сетях развивалось как ответвление теории графов в виде восьми знаменитых статей Пала Эрдёша и Альфреда Реньи о случайных графах. Для социальных сетей экспоненциальная модель случайного графа[en] или p* является замечательной основой, используемой для представления пространства вероятностных связей, появляющихся в социальной сети. Альтернативным подходом к вероятностным сетевым структурам является матрица вероятностей сети[en], которая моделирует вероятность рёбер, возникающих в сети, основываясь на историческом присутствии или отсутствии ребра в возникающих сетях.

В 1998 Дэвид Крэкхард и Кэтлин Карли представили идею метасети с моделью PCANS. Они предположили, что «все организации структурированы в трёх направлениях, Физические лица, Задачи и Ресурсы». Их статья ввела концепцию, что сети возникают по различным направлениям, а потому они взаимосвязаны. Эта область выросла в другую подобласть науки о сетях, которая называется динамическим анализом сети[en].

Позднее другие научные усилия были сфокусированы на математическом описании различных сетевых топологий. Дункан Ваттс совместил данные на сетях с математическим представлением, описывающим граф «Мир тесен». Альберт-Ласло Барабаши и Река Альберт[en] разработали масштабно-инвариантую сеть, которая в общих чертах определяет сетевую топологию, которая содержит узловые вершины (хабы) со множеством соединений, количество которых растёт, сохраняя постоянное отношение числа соединений по отношению к числу всех узлов. Хотя многие сети, такие как интернет, оказываются сохраняющими это отношение, другие сети имеют длинные хвосты распределения узлов, которые лишь приближённо сохраняют масштабную инвариантность.

Инициативы Министерства обороны[править | править код]

Военные силы США первыми (в 1996 году) заинтересовались в сетецентрической войне как концепции военных действий, основанных на науке о сетях. Джон А. Парментола, руководитель научно-исследовательского центра и лабораторий армии США (англ. the U.S. Army Director for Research and Laboratory Management), провозгласил на армейском совете по науке и технике (англ. the Army’s Board on Science and Technology, BAST) 1 декабря 2003 года, что наука о сетях становится новой областью исследований в армии. BAST, отдел инженерно-технических и физических наук (англ. the Division on Engineering and Physical Sciences) Национального совета по исследованиям (англ. the National Research Council, NRC) государственной академии наук, наделена полномочиями организации обсуждений научных и технологических актуальных вопросов для армии и осуществления надзора за независимыми связанными с армией изучениями, проводимыми академией наук. BAST проводит изучение, может ли помочь определение рамок и финансирование новой области, науки о сетях, закрыть разрыв между потребностями осуществления сетецентрических операций и текущим примитивным состоянием фундаментальных знаний о сетях.

Как результат BAST выпустил в 2005 исследовательскую работу NRC, озаглавленную «Наука о сетях», в которой определяется новая область основных исследований в науке о сетях для армии. Основываясь на полученных в этой работе результатах и рекомендациях и на последующем отчёте NRC 2007 года, озаглавленном «Стратегия для армейских центров науки о сетях, технологии и экспериментов», основные армейские исследовательские ресурсы были перенаправлены на инициализацию новых главных исследовательских программ в науке о сетях. Чтобы построить новые теоретические основы для комплексных сетей, поддерживаются некоторые новые ключевые моменты исследования науки о сетях, адресованные армейским лабораториям:

  • Математические модели поведения сетей для предсказания производительности по размеру, сложности сети и окружению.
  • Оптимизированная производительность людей, требуемая для сетевой войны.
  • Организация сетей в экосистемах и в ячейках на молекулярном уровне.

С подачи в 2004 году Фредерика И. Моксли и при поддержке Дэвида С. Альбертса Министерства обороны помогло создать первый Центр Науки о сетях (англ. Network Science Center) совместно с военной академией (англ. the United States Military Academy, USMA) армии США. Под руководством Моксли и сотрудников USMA были созданы междисциплинарные студенческие курсы науки о сетях для курсантов Вест-Пойнт. Для лучшего внедрения основных положений науки о сетях среди будущих лидеров USMA основали также курс из пяти дисциплин.

В 2006 году армия США и Великобритания (UK) сформировали Интернациональный Технологический Альянс[en] (англ. International Technology Alliance) по Сетевой и Информационной Науке (англ. the Network and Information Science), совместное партнёрство Армейской Исследовательской лаборатории, Министерства Обороны Великобритании и консорциум индустрии и университетов в США и Великобритании. Целью альянса является осуществление исследований в поддержке сетецентрических операций в интересах обеих наций.

В 2009 году армия США сформировала Совместный Технологический Альянс Сетевой Науки[en], альянс по совместным исследованиям Армейской Исследовательской лаборатории[en], CERDEC[en] и консорциума 30 промышленных исследовательских центров США. Целью альянса является разработка глубокого понимания общих черт переплетающихся социальных/когнитивных, информационных и коммуникационных сетей, а как результат, улучшение нашей возможности анализировать, предсказывать, разрабатывать и влиять на сложные переплетающиеся системы сетей многих видов.

Затем, как результат этих усилий, министерство обороны США спонсировал многочисленные исследовательские проекты, поддерживающие науку о сетях.

Свойства сетей[править | править код]

Часто сети имеют некоторые атрибуты, которые могут быть вычислены для анализа свойств и характеристик сети. Поведение этих свойств сетей часто определяют сетевые модели и они могут быть использованы для анализа, чем отличаются одни модели от других. Многие определения для других терминов, используемых в науке о сетях, можно найти в статье «Глоссарий теории графов».

Размер[править | править код]

Под размером сети может пониматься число узлов или, реже, число рёбер , которое (для связных графов без кратных рёбер) может меняться от (дерево) до (полный граф). В случае простого графа (сеть, в которой существует максимум одно (неориентированное) ребро между любой парой вершин и в которой ни одна из вершин не соединена сама с собой), мы имеем . Для ориентированных графов (без петель) . Для ориентированных графов с разрешёнными петлями . Для случая графа, в котором разрешены кратные рёбра между парой вершин .

Плотность[править | править код]

Плотность сети с узлами определяется как отношение числа рёбер к числу возможных рёбер в сети и задаётся (в случае простых графов) биномиальным коэффициентом , что даёт

Другое возможное уравнение — где связи неориентированны[6][7]. Это даёт лучшее понимание плотности сети, поскольку неориентированные связи могут быть измерены.

Планарная сетевая плотность[править | править код]

Плотность сети , в которой нет пересечений рёбер, определяется как отношение числа рёбер к числу максимальному числу рёбер в сети с узлами без пересекающихся рёбер , что даёт

Средняя степень узла[править | править код]

Степень узла — это число рёбер, связанных с ним. Тесно связана с плотностью сети средняя плотность, (или, в случае ориентированных графов, . Множитель 2 в предыдущем равенстве возникает из того, что каждое ребро в неориентированном графе делает вклад в степени двух различных вершин). В модели случайного графа Эрдёша — Реньи () мы можем вычислить ожидаемое значение (равно ожидаемому значению произвольной вершины) — случайная вершина имеет возможных других вершин с вероятностью соединения . Тогда .

Средняя длина кратчайшего пути (или характеристика длины пути)[править | править код]

Средняя длина кратчайшего пути вычисляется путём нахождения кратчайшего пути между всеми парами узлов и вычисления средней длины по всем путям (длиной является число рёбер, содержащихся в пути, то есть расстояние между двумя вершинами в графе). Это показывает нам, в среднем, число шагов, которые нужно сделать от одного узла сети до другого. Поведение математического ожидания средней длины кратчайшего пути как функции числа вершин модели случайной сети определяет, отражает ли модель эффект малого мира. Если она ведёт себя как , модель генерирует модель сетей малого мира. При росте большем логарифмического модель не даёт «малый мир». Специальный случай роста известен как эффект ультрамалого мира.

Диаметр сети[править | править код]

Как другое средство измерения сетевых графов мы можем определить диаметр сети как самый длинный из вычисленных кратчайших путей в сети. Это кратчайшее расстояние между двумя наиболее удалёнными друг от друга узлами сети. Другими словами, после того, как вычислена длина кратчайшего пути из каждого узла во все другие узлы, диаметр является самым длинным из всех вычисленных длин путей. Диаметр является представлением линейного размера сети.

Коэффициент кластеризации[править | править код]

Коэффициент кластеризации является мерой свойства «все мои друзья знают друг друга». Это иногда описывается как «друзья моего друга — мои друзья». Более точно, коэффициент кластеризации узла равен отношению существующих связей, соединяющих соседей узла друг с другом, к максимальному числу таких связей. Коэффициент кластеризации всей сети равен среднему коэффициентов кластеризации всех узлов. Высокий коэффициент кластеризации для сети является другим признаком тесного мира.

Коэффициент кластеризации -ого узла равен

где равно числу соседей -го узла, а равно числу связей между этими соседями. Максимальное число возможных связей между соседями равно, тогда,

С точки зрения теории вероятности ожидаемый локальный коэффициент кластеризации равен вероятности существования связи между двумя произвольно выбранными соседями одного узла.

Связанность[править | править код]

Способ, каким сеть связана, играет большую роль в анализе и интерпретации сети. Сети классифицируются на четыре категории:

  • Клика/Полный Граф — полностью связанная сеть, в которой каждый узел связан с каждым другим узлом. Эти сети симметричны, поскольку все узлы имеют входящие соединения от всех других узлов и исходящие соединения во все остальные узлы.
  • Гигантская компонента — одна связная компонента содержит большинство узлов сети.
  • Слабо связанная компонента — набор узлов, в котором существует путь из любого узла в любой другой без учёта направления рёбер.
  • Сильно связанная компонента — набор узлов, в котором существует ориентированный путь из любого узла в любой другой узел.

Центральность узла[править | править код]

Показатели центральности порождают ранжирование, которое пытается выявить наиболее важные узлы в модели сети. Различные показатели центральности кодируют различные контексты слова «важность». Степень посредничества, например, считает узел сильно важным, если он образует мосты между многими другими узлами. Степень влиятельности, в качестве контраста, считает узел сильно важным, если много других сильно важных узлов связаны с ним. Сотни таких мир было предложено в литературе.

Признаки центральности аккуратны только для выявления наиболее центральных узлов. Эти меры редко имеют смысл, если вообще имеют, для остальных узлов сети[8][9]. Также показатели аккуратны, только когда они используются в контексте важности узлов и стремятся «стать ошибочными» в других контекстах[10]. Например, представим два сообщества, которые соединяются только ребром между наиболее юными членами каждого сообщества. Поскольку переход из одного сообщества в другое должно идти через это ребро, два младших члена будут иметь высокую степень посредничества. Но, поскольку они молоды (по всей видимости), они имеют мало связей с «важными» узлами в собственном сообществе, это означает, что их степень влиятельности будет достаточно низкой.

Концепция центральности в контексте статических сетей были расширены на основе эмпирических и теоретических исследований до динамической центральности[11] в контексте зависимых от времени и скоротечных сетей[12][13][14].

Влияние вершин[править | править код]

Ограничения мер центральности привели к развитию более общих мер. Двумя примерами являются достижимость, которая использует разброс длины случайных маршрутов для измерения, насколько достижим остаток сети от выбранного начального узла[15], и ожидаемая сила, производная от ожидаемого значения силы инфекции[en], порождённой узлом[8]. Обе эти меры могут быть содержательно вычислены лишь из структуры сети.

Сетевые модели[править | править код]

Сетевые модели используются как основание для понимания взаимосвязей внутри эмпирических комплексных сетей. Различные модели генерации случайных графов образуют сетевые структуры, которые могут быть использованы в сравнении с комплексными сетями реального мира.

Модель случайного графа Эрдёша — Реньи[править | править код]

Модель Эрдёша — Реньи, сгенерированная с узлами. Для каждого ребра в полном графе, образованном всеми N узлами, генерится случайное число и сравнивается с заданным значением вероятности. Если случайное число меньше p, образуется ребро.

Модель Эрдёша — Реньи, названная именами Пала Эрдёша и Альфреда Реньи, используется для генерации случайных графов, в которых рёбра образуются между узлами с одинаковыми вероятностями. Модель может быть использована в вероятностном методе для доказательства существования графов с различными свойствами или для обеспечения строгого определения, какие свойства выполняются почти для всех графов.

Для генерации модели Эрдёша — Реньи должны быть заданы два параметра — общее число узлов n и вероятность p, с которой произвольная пара узлов имеет связывающее ребро.

Поскольку модель генерируется без пристрастия к определённым узлам, распределение узлов по числу связей биномиально — для случайно выбранного узла ,

В этой модели коэффициент кластеризации равен 0 почти наверняка. Поведение можно разбить на три области.

Субкритическая : Все компоненты простые и очень маленькие, наибольшая компонента имеет размер ;

Критическая : ;

Суперкритическая :, где является положительным решением уравнения .

Наибольшая связная компонента имеет высокую сложность. Все другие компоненты просты и малы .

Конфигурационная модель[править | править код]

Для конфигурационной модели выбирается последовательность степеней вершин[16][17] или распределение степеней вершин[18][19] (которое затем используется для генерации последовательности вершин) в качестве входа и создаётся случайно связанный граф с сохранением всех степеней вершин последовательности. Это означает, что для данного выбора последовательности степеней граф выбирается однородно из множества всех графов, которые имеют такую последовательность степеней вершин. Степень случайно выбранной вершины является независимой и одинаково распределённой случайной переменной с целыми значениями. При конфигурационный граф содержит гигантскую связную компоненту, которая имеет неограниченный размер[17]. Остальные компоненты имеют конечные размеры, которые могут быть выражены количественно с помощью распределения размера. Вероятность , что случайно отобранный узел связан с компонентой размера задаётся степенью свёртки[en] распределения степеней[20]

где означает распределение узлов по числу связей и . Гигантская компонента может быть разрушена путём случайного удаления критичной доли всех вершин. Этот процесс называется перколяцией (просачиванием) на случайных сетях. Если второй момент степени распределения конечен, то есть , эта критическая доля рёбер задаётся равенством[21]

и среднее расстояние между вершинами[en] в гигантской компоненте логарифмически пропорционально полному размеру сети [18].

В модели ориентированной конфигурации степень узла задаётся двумя числами, полустепенью входа и полустепенью исхода , и, соответственно, распределения степеней вершин будут двувариантными. Ожидаемое число входящих рёбер и исходящих рёбер совпадает, так что . Ориентированная конфигурационная модель содержит гигантскую компоненту тогда и только тогда, когда[22]

Заметим, что и равны, а потому взаимозаменяемы в последнем неравенстве. Вероятность, что случайно выбранная вершина принадлежит компоненте размера , задаётся формулой[23]

для входящих компонент, и

для исходящих компонент.

Модель тесного мира Уаттса — Строгаца[править | править код]

Модель Уаттса — Строгаца[en] использует концепцию перемонтажа для получения структуры модели. Генератор модели итерирует через все рёбра в исходной структуре решётки. Ребро может изменить связанные с ним вершины с заданной вероятностью перемонтажа. В данном примере, .

Модель Уаттса — Строгаца[en] является моделью генерации случайного графа, которая даёт графы со свойствами «мир тесен».

Для генерации модели Уаттса — Строгаца используется начальная структура решётки. Каждый узел в сети первоначально связан с ближайшими соседями. Другой параметр задаёт вероятность перемонтажа. Каждое ребро имеет вероятность , что оно будет перемонтировано в граф как случайное ребро. Ожидаемое число перемонтированных соединений в модели равно .

Так как модель Уаттса — Строгаца начинается как неслучайная решёточная структура, она имеет очень высокий коэффициент кластеризации вместе с высокой средней длиной пути. Каждый перемонтаж с большой вероятностью создаёт сокращённый путь между сильно связанными кластерами. При увеличении вероятности перемонтажа коэффициент кластеризации уменьшается медленнее, чем средняя длина пути. В результате это позволяет средней длине пути сети уменьшаться существенно при слабом уменьшении коэффициента кластеризации. Высокие значения p приводит к большему числу перемонтажа рёбер, что в результате делает модель Уаттса — Строгаца случайной сетью.

Модель Барабаши — Альберт предпочтительных присоединений[править | править код]

Модель Барабаши — Альберт является моделью случайной сети, используемой для демонстрации предпочтительных присоединений или эффекта «богатый становится богаче». В этой модели ребро наиболее вероятно соединяется с узлами с наибольшими степенями. Сеть начинается с сети с m0 узлами, где , а степень каждого узла в начальной сети должна быть по меньшей мере 1, в противном случае узел навсегда останется отсоединённым от остальной части сети.

В модели Барабаши — Альберта новые узлы добавляются в сеть по одному. Каждый новый узел соединяется с существующими узлами с вероятностью, которая пропорциональна числу уже существующих узлов. Формально, вероятность , что новый узел связен с узлом i, равен[24]

где ki является степенью узла i. Наиболее связанные узлы («хабы») стремятся быстро аккумулировать даже больше соединений, в то время как узлы с меньшим числом соединений вряд ли будут выбраны в качестве нового соединения. Новые узлы имеют «преимущество» присоединиться к уже наиболее сильно связанным узлам.

Распределение узлов по числу связей модели Барабаши BA, которая следует степенному закону. При масштабировании с помощью loglog функции степенного закона получаем прямую[25].

Распределение узлов по числу связей, получаемое из BA модели, масштабно инвариантно, в частности, это степенной закон вида

Хабы показывают высокую степень посредничества, позволяя существованию коротких путей между узлами. В результате модель BA стремится иметь очень короткую среднюю длину путей. Коэффициент кластеризации этой модели также стремится к 0. В то время как диаметр D многих моделей, включая модель случайного графа Эрдёша —Реньи и некоторых сетей «тесного мира», пропорционален log N, модель BA показывает D~loglogN (ультратесный мир)[26].

Модель присоединения с помощью посредника[править | править код]

В модели присоединения с помощью посредника[en] (англ. mediation-driven attachment, MDA) новый узел приходит с рёбрами, для чего выбирается случайным образом существующий связанный узел и новый узел соединяется не только с этим случайно выбранным узлом, но и также с его соседями, выбранными также случайно. Вероятность , что соседний узел существующего узла выбирается, равна

Множитель равен обратной величине среднего гармонического (ОСГ) степеней соседей узла . Обширное численное исследование позволяет предположить, что при среднее значение ОСГ при больших стремится к константе, это означает, что . Из этого следует, что чем больше связей (степень) узел имеет, тем выше шанс получить более связей, поскольку они могут быть получены большим числом способов через посредников, что, по существу, воплощает интуитивную идею «богатые становятся богаче» (или правило предпочтительного присоединения модели Барабаши — Альберт). Поэтому сети MDA, как можно понять, подчиняются правилу PA, но в неявном виде[27].

Однако при получаем механизм «победитель забирает всё», поскольку почти общего числа узлов имеют степень единица, а один узел становится супербогатым. По мере увеличения значения диспропорция между сверхбогатыми и бедными сокращается и при мы наблюдаем переход механизма от «богатый становится супербогатым» к механизму «богатый становится богаче».

Модель соответствия[править | править код]

Другую модель, в которой ключевым ингредиентом является природа вершины, предложил Калдарелли с соавторами[28]. Здесь связь создаётся между двумя вершинами с вероятностью, задаваемой функцией связи модели соответствия[en] вовлечённых вершин. Степень вершины i задаётся формулой[29]

Если является обратимой возрастающей функцией от , то распределение вероятности задаётся формулой

Как результат, если соответствие распределено по степенному закону, то так же распределены и степени узлов.

Менее очевидно при быстро убывающем распределении вероятностей вместе со связывающей функцией вида

с константой и функцией Хевисайда , что мы получаем масштабно-инвариантные сети.

Такая модель была успешно применена для описания торговли между нациями с помощью ВВП как меры соответствия для различных узлов и связывающей функцией вида[30][31]

Анализ сети[править | править код]

Анализ социальных сетей[править | править код]

Анализ социальной сети исследует структуру связей между общественными субъектами[6]. Эти субъекты являются часто людьми, но могут быть также и группами, организациями, национальными государствами, сайтами, научными публикациями.

C 1970-х годов эмпирическое изучение сетей играет центральную роль в социальной науке и много математических и статистических средств, используемых для изучения сетей, были разработаны в социологии[32]. Среди многих других приложений анализ социальной сети используется для понимания диффузии инноваций, новостей и слухов. Аналогично, оно может быть использовано как для исследования распространения болезней, так и связанного со здоровьем поведения. Оно также применялось для изучению рынка, где использовалось для проверки роли доверия в товарно-денежных отношениях и социальных механизмов в формировании цен. Аналогично оно использовалось для изучения вовлечения в политические движения[en]* и социальные организации. Использовалось оно также для осмысления научных разногласий и академической репутации. Недавно сетевой анализ (и его ближайший родственник, анализ трафика[en]*) начали интенсивно использоваться в военной разведке для раскрытия социальных сетей сопротивления, имеющих как иерархическую, так и безлидерную природу[33][34].

Динамический анализ сети[править | править код]

Динамический анализ сети[en] исследует изменение структуры связей среди различных классов объектов в сложных социо-технических системах и отражает социальную стабильность и изменения, такие как появление новых групп, дискуссий и лидеров[11][12][13][14][35]. Динамический анализ сети фокусируется метасетях, составленных из узлов многих различных видов (объектов) и множественных типах связей[en]. Эти объекты могут сильно варьироваться[11]. В качестве примеров могут быть люди, организации, темы, ресурсы, задачи, события, места расположения и веры (воззрения).

Техники динамической сети особенно удобны для оценки трендов в сети со временем, выделения появляющихся лидеров и исследование коэволюции людей и идей.

Анализ биологических сетей[править | править код]

При взрывном увеличении в недавнем времени публично доступных биологических данных анализ молекулярных сетей получил значительный интерес. Анализ в этих условиях тесно связан с анализом социальной сети, но часто фокусируется на локальные закономерности в сети. Например, сетевые мотивы — это маленькие подграфы, которые чрезмерно представлены в сети. Мотивы активности подобны чрезмерно представленным закономерностям в свойствах узлов и рёбер в сети, которые чрезмерно представлены в сетевой структуре. Анализ биологических сетей привёл к развитию сетевой медицины[en], которая рассматривает эффект болезней в интерактоме[36].

Анализ связей[править | править код]

Анализ связей является подмножеством сетевого анализа, исследующего ассоциации между объектами. Примером может быть просмотр адресов подозреваемых и жертв, номеров телефонов, которые они набирали, финансовых транзакций, в которых они были задействованы в рассматриваемый интервал времени, и степени родства этих объектов как часть полицейского расследования. Анализ связей здесь обеспечивает крайне важные отношения и ассоциации между очень большим числом объектов различных видов, которые не очевидны при рассмотрении частей информации по отдельности. Автоматизированный анализ связей возрастающим образом эксплуатируется банками и агентствами страхования для выявления мошенничества, операторами связи для анализа коммуникационных сетей, медицинскими исследователями в эпидемиологии и фармакологии, органами охраны правопорядка для расследований, поисковыми системами для оценки релевантности рейтингов (и наоборот, спамерами для спамдексинга и владельцами бизнеса для поисковой оптимизации), а также везде, где анализируются связи между большим числом объектов.

Устойчивость сети[править | править код]

Структурная устойчивость сетей[37] изучается с помощью теории перколяции. Когда критическая доля узлов удаляется из сети, сеть распадается на мелкие кластеры. Этот феномен называется перколяцией[38] и представляет тип фазового перехода «порядок-беспорядок» с критическим индексом.

Анализ пандемии[править | править код]

SIR-модель в эпидемиологии[en] является одной из наиболее известных алгоритмов предсказания распространения глобальных пандемий в инфицированной популяции.

От состояния восприимчивости к заражению[править | править код]

Формула выше описывает «силу» инфекции для каждой восприимчивой единицы в заражённой популяции, где эквивалентно скорости распространения болезни.

Для отслеживания изменений этой восприимчивой единицы в заражённой популяции:

От заражения к выздоровлению[править | править код]

Со временем число таких заражений зависит от заданной скорости выздоровления, представленной числом , но за средний период заражения , от числа заражённых лиц и от числа изменений за время .

Контагиозный период[править | править код]

Поражена ли популяция пандемией, с позиции SIR-модели, зависит от значения или «среднего числа заражённых людей от других людей».

Анализ Web-ссылок[править | править код]

Некоторые алгоритмы ранжирования поисковых систем используют основанные на ссылках меры центральности, включая (в порядке появления) алгоритмы Hyper Search[en] Марчиори[en], PageRank компании Google, Алгоритм HITS Клейнберга, CheiRank[en] и TrustRank[en]. Анализ связей может осуществляться в теории информации, чтобы понять и выделить информацию из набора веб-страниц. Например, это может быть анализ связей между сайтами или блогами политиков.

PageRank[править | править код]

PageRank работает путём случайного выбора «узла» или интернет-сайта и «случайного перехода» с некоторой вероятностью на другие узлы. Случайные переходы на эти другие узлы позволяют оценке PageRank полностью обойти сеть, поскольку некоторые страницы находятся на периферии сети и не могут быть легко оценены.

Каждый узел имеет PageRank, определённый как сумма для страниц обратных величин числа страниц, связанных с узлом исходящими дугами, или «полустепень исхода» узла на «важность» или PageRank узла .

Случайные переходы[править | править код]

Как объяснено выше, PageRank осуществляет случайные переходы в попытке назначить PageRank каждой странице в интернете. Эти случайные переходы находят сайты, которые не могут быть найдены в результате нормальных методологий поиска, таких как поиск в ширину и поиск в глубину.

Улучшение вышеприведённой формулы для определения PageRank включает компоненты этих случайных переходов. Без случайных переходов некоторые страницы получат PageRank, равный 0, что не есть хорошо.

Первой компонентой является , или вероятность, что случайный переход случится. Противоположным является «коэффициент затухания», или .

Другой угол зрения на это:

Меры центральности[править | править код]

Информация об относительной важности узлов и рёбер в графах может быть получена через меры центральности, широко используемые в дисциплинах, таких как социология. Меры центральности необходимы, когда сетевой анализ не имеет ответа на вопросы, такие как: «Какие узлы в сети следует задействовать, чтобы обеспечить, чтобы сообщение или информация распространялась на все или большинстве узлов сети?» или, наоборот, «На какие узлы следует воздействовать, чтобы остановить распространение болезни?». Формально определёнными мерами центральности являются степень связности, степень близости, степень посредничества, степень влиятельности и центральность по Кацу. Цель анализа сети обычно предопределяет используемый тип мер(ы) центральности[6].

  • Степень связности узла сети — это число связей (вершин), инцидентных узлу.
  • Степень близости определяет, насколько «близок» узел сети другим узлам путём суммирования кратчайших расстояний (геодезических путей) между этим узлом и остальными узлами сети.
  • Степень посредничества определяет относительную важность узла путём измерения величины потока, протекающего через этот узел к другим узлам в сети. Это делается путём измерения доли путей, соединяющих все пары узлов и содержащих рассматриваемый узел. Групповая степень посредничества измеряет величину потока, протекающего через группу узлов[39].
  • Степень влиятельности является более сложной версией степени центральности, когда центральность узла не только зависит от числа связей, инцидентных узлу, но и от качества этих связей. Этот множитель качества определяется собственными векторами матрицы смежности сети.
  • Центральность по Кацу узла измеряется путём суммирования геодезических (то есть кратчайших) путей между этим узлом и всеми (достижимыми) узлами сети. Эти пути взвешены, пути, соединяющие узел с его непосредственными соседями, имеют более тяжёлые веса, чем узлы, которые связаны с более удалёнными узлами.

Распространение контента в сетях[править | править код]

Контент в сложной сети может распространяться двумя главными способами: сохраняющееся распространение и несохраняющееся распространение[40]. При сохраняющемся распространении общее количество контента, входящего в сложные сети, остаётся постоянной при проходе через сеть. Модель сохраняющегося распространения может быть лучше всего представлена кувшином, содержащим определённое количество воды, которая выливается в ряд стоков, соединённых трубами. Здесь кувшин представляет источник, а вода представляет распространяемый контент. Ёмкости и соединяющие трубы представляют узлы и связи узлов соответственно. При переходе воды от одной ёмкости в другую вода исчезает из ёмкости-источника. В несохраняющемся распространении количество контента меняется по мере прохождения через сложные сети. Модель несохраняющегося распространения лучше всего можно представить непрерывной струёй из водопроводного крана, растекающейся по стокам, соединённых трубами. Здесь количество воды из начального источника не ограничено. Также любой сток, до которого вода дошла, продолжает получать воду, даже если она проходит к другим стокам. Несохраняющиеся модели наиболее пригодны для объяснения передачи большинства инфекций.

SIR-модель[править | править код]

В 1927 году В. О. Кермак и А. Г. Маккендрик создали модель, в которой они рассматривают фиксированную популяцию всего с тремя состояниями — восприимчив, , заражён, , и вылечен, . Категории, используемые в этой модели, состоят из трёх классов:

  • используется для представления числа лиц, ещё не заражённых болезнью в момент времени t (восприимчивых к болезни)
  • означает число заражённых лиц, которые способны передавать болезнь лицам, находящимися в категории «восприимчивые»
  • является категорией лиц, перенёсших болезнь и вылечившихся. Лица этой категории, не способные заразиться повторно или передать инфекцию другим лицам.

Течение этой модели можно рассматривать следующим образом:

Используя фиксированную популяцию, , Кермак и Маккендрик вывели следующие уравнения:

Для формулирования этих уравнений были сделаны некоторые предположения. Для первого уравнения отдельный представитель популяции должен рассматриваться как имеющий такую же вероятность заражения, как и любой другой представитель, со скоростью , которая рассматривается как скорость распространения инфекции или болезни. Поэтому, когда заражённый представитель вступает в контакт и способен к передаче болезни другим представителям за единицу времени и доля контактов заражённых представителей с восприимчивыми равна . Число новых инфекций за единицу времени на одного заражённого тогда равно , что задаёт скорость новых заражений s (или тех, кто покидает категорию восприимчивых) как [41]. Для второго и третьего уравнений считается, что популяция покидает класс восприимчивых с той же скоростью, что и входит в класс заражённых. Однако число равно доле ( представляет среднюю скорость выздоровления, а представляет среднее время болезни) заражённых, покидающих этот класс в единицу времени и переходящих в класс выздоровевших. Об этих происходящих одновременно процессах говорят как о законе действующих масс, широко распространённая идея, что скорость контактов между двумя группами в популяции пропорциональна размеру каждой из двух рассматриваемых групп[42]. Наконец, предполагается, что скорость заражения и выздоровления много больше, чем рождение и умирание, а потому эти факторы в модели не учитываются.

Больше об этой модели можно прочесть на странице Модель эпидемии[en].

Метод основного уравнения[править | править код]

Основное уравнение может выразить поведение неориентированной растущей сети, в которой на каждом шаге добавляется новый узел, соединённый со старым узлом (случайно выбранным и без преференций). Начальную сеть составляют два узла и две связи между ними в момент . Такая конфигурация необходима только для упрощения дальнейших вычислений, так что в момент времени сеть имеет узлов и связей.

Основное кинетическое уравнение для этой сети

где равно вероятности иметь узел со степенью в момент времени , а является временем, когда узел был добавлен в сеть. Заметим, что имеется только два способа для старого узла иметь соединений в момент :

  • Узел имеет степень в момент и будет связан с новым узлом с вероятностью
  • Уже имеет степень в момент и не будет соединён с новым узлом.

После упрощения этой модели распределение узлов по числу связей будет равно [43].

Основываясь на этой растущей сети, эпидемическая модель развивается по следующему простому правилу: Каждый раз добавляется новый узел и после выбора, к какому узлу будем соединять, решается, будет этот узел заражённым или нет. Основное уравнение для этой эпидемической модели

где определяет заражение () или отсутствие заражения (). После решения этого основного уравнения получаем следующее решение: [44].

Взаимозависимые сети[править | править код]

Взаимозависимая сеть — это система связанных сетей, в которых узлы одной или более сетей зависят от узлов других сетей. Такие зависимости расширены разработками в современных технологиях. Зависимости могут привести к каскадным повреждениям между сетями и относительно малые повреждения могут привести к катастрофичным разрушениям системы. Отключения электричества являются восхитительной демонстрацией важности роли, которую играют связи сетей. Недавно была развита концепция изучения каскадных нарушений в системе взаимозависимых сетей[45][46].

Многослойные сети[править | править код]

Многослойные сети — сети с несколькими видами связей[47][48][49][50][51][52]. Возрастающие изощрённые попытки смоделировать системы реального мира как многосвязные сети дали ценные знания в области анализа социальной сети[48][49][53][54][55][56], экономике, истории[57], городском и международном транспорте[58][59][60][61], экологии[62][63][64][65], психологии[66], медицине, биологии[67], коммерции, климатологии, физике[68][69], нейроинформатике[70] [71][72], управлении операциями с финансах.

Оптимизация сети[править | править код]

Сетевые задачи, которые используют поиск оптимального пути в каких-либо целях, изучаются под названием комбинаторной оптимизации. Примеры включают потоки в сети, задачу о кратчайшем пути, транспортную задачу, задачу о перевозках[en], задачу о размещении объектов, задачу о паросочетаниях, задачу о назначениях, задачу упаковки, задачу маршрутизации, метод критического пути и PERT (метод оценки и анализа проектов).

Примечания[править | править код]

  1. National Research Council. Network Science. — 2005-12-07. — ISBN 9780309100267. Архивировано 2 июля 2019 года.
  2. J. J. Sylvester. On an Application of the New Atomic Theory to the Graphical Representation of the Invariants and Covariants of Binary Quantics, with Three Appendices // American Journal of Mathematics. — 1878. — Т. 1, вып. 1. — С. 64–104. — ISSN 0002-9327. — doi:10.2307/2369436. Архивировано 12 августа 2019 года.
  3. Kőnig, 1990.
  4. Moreno, 1953.
  5. "Emotions mapped by new geography" (PDF). The New York Times (англ.). 1933-04-03. p. 17. Архивировано (PDF) из оригинала 12 августа 2019. Дата обращения: 12 августа 2019.
  6. 1 2 3 Wasserman, Faust, 1994.
  7. http://psycnet.apa.org/journals/prs/9/4/172/
  8. 1 2 Lawyer, 2015, с. 8665.
  9. Sikic, Lancic, Antulov-Fantulin, Stefancic, 2013, с. 440.
  10. Borgatti, 2005, с. 55–71.
  11. 1 2 3 Braha, Bar-Yam, 2006, с. 59–63.
  12. 1 2 Hill, Braha, 2010, с. 046105.
  13. 1 2 Gross, Sayama, 2009.
  14. 1 2 Holme, Saramäki, 2013.
  15. Travençolo, da Costa, 2008, с. 89–95.
  16. Bender, Canfield, 1978, с. 296–307.
  17. 1 2 Molloy, Reed, 1995, с. 161–180.
  18. 1 2 Newman, Strogatz, Watts, 2001, с. 026118.
  19. Лифшиц, 2006, с. 4.2. Конфигурационная модель.
  20. Kryven, 2017, с. 052303.
  21. Kryven, 2018, с. 140–157.
  22. Kryven, 2016, с. 012315.
  23. Kryven, 2017, с. 052304.
  24. Albert, Barabási, 2002, с. 47–97.
  25. Barabási, Albert, 1999, с. 509—512.
  26. Cohen, Havlin, 2003, с. 058701.
  27. Hassan, Islam, Arefinul Haque, 2017, с. 23–30.
  28. Caldarelli, Capocci, De Los Rios, Muñoz, 2002, с. 258702.
  29. Servedio, Caldarelli, Buttà, 2004, с. 056126.
  30. Garlaschelli, Loffredo, 2004, с. 188701.
  31. Cimini, Squartini, Garlaschelli, Gabrielli, 2015, с. 15758.
  32. Newman, 2010.
  33. Toward a Complex Adaptive Intelligence Community The Wiki and the Blog. D. Calvin Andrus. cia.gov. Дата обращения: 25 августа 2012. Архивировано 14 мая 2008 года.
  34. Network analysis of terrorist networks. Дата обращения: 14 июля 2019. Архивировано из оригинала 23 ноября 2012 года.
  35. Xanthos, Pante, Rochat, Grandjean, 2016, с. 417–419.
  36. Barabási, Gulbahce, Loscalzo, 2011, с. 56–68.
  37. Cohen, Havlin, 2010.
  38. Bunde, Havlin, 1996.
  39. Puzis, Yagil, Elovici, Braha, 2009, с. 1.
  40. Newman, Barabási, Watts, 2006.
  41. Brauer, Castillo-Chavez, 2001.
  42. Daley, Gani, 2001.
  43. Dorogovtsev, Mendes, 2003.
  44. Cotacallapa, Hase, 2016, с. 065001.
  45. Buldyrev, Parshani, Paul и др., 2010, с. 1025–28.
  46. Gao, Buldyrev, Havlin, Stanley, 2011, с. 195701.
  47. Coscia, Rossetti, Pennacchioli и др., 2013, с. 434.
  48. 1 2 De Domenico, Solé-Ribalta, Cozzo и др., 2013, с. 041022.
  49. 1 2 Battiston, Nicosia, Latora, 2014, с. 032804.
  50. Kivela, Arenas, Barthelemy и др., 2014, с. 203–271.
  51. Boccaletti, Bianconi, Criado и др., 2014, с. 1–122.
  52. Battiston, Nicosia, Latora, 2017, с. 401–416.
  53. Mucha, 2010, с. 876–878.
  54. De Domenico, Lancichinetti, Arenas, Rosvall, 2015, с. 011027.
  55. De Domenico, Sole-Ribalta, Omodei, Gomez, Arenas, 2015, с. 6868.
  56. Battiston, Iacovacci, Nicosia, Bianconi, Latora, 2016, с. e0147451.
  57. Grandjean, 2016, с. 531–534.
  58. Cardillo, 2013, с. 1344.
  59. Boeing, 2017, с. 126–139.
  60. Gallotti, Barthelemy, 2014, с. 6911.
  61. De Domenico, Sole-Ribalta, Gomez, Arenas, 2014, с. 8351–8356.
  62. Pilosof, Porter, Pascual, Kefi, 2015.
  63. Kouvaris, Hata, Diaz-Guilera, 2015, с. 10840.
  64. Timóteo, Correia, Rodríguez-Echeverría, Freitas, Heleno, 2018, с. 140.
  65. Costa, Ramos, Timóteo и др., 2018.
  66. Fiori, Smith, Antonucci, 2007, с. P322–30.
  67. De Domenico, Nicosia, Arenas, Latora, 2015, с. 6864.
  68. Gao, Buldyrev, Stanley, Havlin, 2011, с. 40–48.
  69. De Domenico, Granell, Porter, Arenas, 2016, с. 901–906.
  70. Timme, Ito, Myroshnychenko и др., 2014, с. e115764.
  71. De Domenico, Sasai, Arenas, 2016, с. 326.
  72. Battiston, Nicosia, Chavez, Latora, 2017, с. 047404.

Литература[править | править код]

Литература для дальнейшего чтения[править | править код]