Коэффициент сходства

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Коэффициент сходства (также мера сходства, индекс сходства) — безразмерный показатель, применяемый в биологии для количественного определения степени сходства биологических объектов. Также известен под названиями «мера ассоциации», «мера подобия» и др.

В более широком смысле говорят о мерах близости к которым относятся: меры разнообразия, меры концентрации (однородности), меры включения, меры сходства, меры различия (в том числе расстояния), меры совместимости событий, меры несовместимости событий, меры взаимозависимости, меры взаимонезависимости. Теория мер близости находится в стадии становления и потому существует множество различных представлений о формализации отношений близости.

Меры близости широко применяются в биологии, где наиболее часто сравниваются участки (районы, отдельные фитоценозы, зооценозы и т. п.). Также применяются в географии, социологии, распознавании образов, поисковых системах, сравнительной лингвистике, биоинформатике, хемоинформатике и др.

Большинство коэффициентов нормированы и находятся в диапазоне от 0 (сходство отстутствует) до 1 (полное сходство). Сходство и различие взаимодополняют друг друга (математически это можно выразить так: Сходство = 1 − Различие).

Коэффициенты сходства можно условно разделить на три группы в зависимости от того, какое число объектов рассматривается:

  • унарные — рассматривается один объект. В эту группу входят меры разнообразия, меры концентрации.
  • бинарные — рассматривается два объекта. Это наиболее известная группа коэффициентов.
  • n-арные (многоместные) — рассматривается n объектов. Эта группа наименее известна.

Унарные коэффициенты[править | править вики-текст]

При изучении биологических объектов широко используются меры изменчивости, как отдельных признаков, так и частот распределения случайных величин. В простейшем случае инвентаризационное (в пределах изучаемой биосистемы) разнообразие можно оценить видовым богатством, или числом видов.

Наиболее часто используются меры разнообразия[1] (коэффициент вариации, индексы параметрического семейства Реньи, включая индекс Шеннона; индексы семейства Хилла; индексы Маргалефа, Глизона и др.). Реже используются дополняющие их меры концентрации (например, семейство мер Колмогорова, мера диссонанса Розенберга).

Бинарные коэффициенты[править | править вики-текст]

Это наиболее используемые в биологии и географии коэффициенты[2]. Самый первый коэффициент сходства был предложен П. Жаккаром (Jaccard) в 1901 г.[3] :  K_J = \frac{c}{a+b-c} , где а — количество видов на первой пробной площадке, b — количество видов на второй пробной площадке, с — количество видов, общих для 1-ой и 2-ой площадок. Впоследствии в самых различных областях науки предлагались различные коэффициенты (меры, индексы) сходства. Наибольшее распространение получили (обозначения те же):

Известна альтернативная система обозначений для таблицы сопряжённости  2 \times 2 от Р. Р. Сокала (Sokal) и П.Снита (Sneath)[10][11]:

Присутствие вида на 1-ом участке Отсутствие вида на 1-ом участке
Присутствие вида на 2-ом участке a b
Отсутствие вида на 2-ом участке c d

где а — количество видов, встречаемых на обеих площадках; b — количество видов встреченных на первой пробной площадке, но без учёта встречаемости общих видов; с — количество видов встреченных на второй пробной площадке, но без учёта встречаемости общих видов. Эта таблица создает большую путаницу. Её часто путают с похожей статистической таблицей сопряженности  2 \times 2 ; обозначения таблицы Сокала-Снита путают с классическими обозначениями (см. выше); почти всегда не учитывают того факта, что таблица рассматривает только вероятности.
В процессе математической формализации объектов и связей между ними возникла универсальная теоретико-множественная запись для коэффициентов сходства. Впервые такого рода запись появляется в работах А. С. Константинова[12], М. Левандовского и Д. Винтер[13]. Так коэффициент сходства Жаккара может быть записан следующим образом:

 K_J = \frac{n(A \cap B)}{n(A) + n(B) - n(A \cap B)} или  K_J = \frac{n(A \cap B)}{n(A \cup B)}.

Наиболее простым коэффициентом сходства является мера абсолютного сходства, которая по сути является числом общих признаков двух сравнимаемых объектов:  n(A \cap B) [14]. При нормировке этой меры значения меры сходства заключены между 0 и 1 и коэффициент известен как «мера процентного сходства» при использовании относительных единиц измерения (в процентах) и как меры пересечения в промежуточных расчетах относительных мер сходства[15].

В 1973 году Б. И. Сёмкиным была предложена общая формула на основе формулы среднего Колмогорова, объединяющая большую часть известных коэффициентов сходства в непрерывный континуум мер[16][17]:

 K_{\tau,\eta} (A,B) =  \left ( \frac{K_\tau^\eta (A;B) + K_\tau^\eta (B;A)}{2} \right )^\frac{1}{\eta} ,

где  K_\tau, (A;B) =  \frac{K_0 (A;B)}{1 + \tau - \tau K_0 (A;B)} ;  K_\tau, (B;A) =  \frac{K_0 (B;A)}{1 + \tau - \tau K_0 (B;A)} ; K_0 (A;B) = \frac{conv(A,B)}{S(B)}; K_0 (B;A) = \frac{conv(A,B)}{S(A)};  -1 < \tau < \mathcal {1} ;  - \mathcal {1} < \eta < + \mathcal {1} . Например, значения  [ \tau , \eta ] для вышеприведённых коэффициентов имеют следующий вид: [1,-1] (коэффициент Жаккара); [0,-1] (коэффициент Серенсена); [0,1] (коэффициент Кульчинского); [0,0] (коэффициент Охаи); [0,  + \mathcal {1} ] (коэффициент Шимкевича-Симпсона); [0, - \mathcal {1} ] (коэффициент Браун-Бланке). Обобщающая формула позволяет определить классы эквивалентных и неэквивалентных коэффициентов[18], а также предотвратить создание новых дублирующих коэффициентов.

Специфическим типом коэффициентов сходства являются меры включения. Это несимметричные меры ( K_\tau^\eta (A;B) и  K_\tau^\eta (B;A) ), которые показывают степень сходства (включение) одного объекта относительно другого. Более привычные (симметричные) коэффициенты близости можно получить путём осреднения двух взаимодополняющих несимметричных мер включения, то есть каждой симметричной мере сходства соответствуют две определённые несимметричные меры сходства. Например, для меры Сёренсена это  K(A;B) = \frac{n(A \cap B)}{n(A)} и  K(B;A) = \frac{n(A \cap B)}{n(B)} ), а для меры Жаккара это  K(A;B) = \frac{n(A \cap B)}{2n(A) - n(A \cap B)} и  K(B;A) = \frac{n(A \cap B)}{2n(B) - n(A \cap B)} . В общем, две несимметричные меры включения лучше оценивают сходство объектов чем одна осреднённая симметричная мера сходства.

Спорным и неоднозначным является вопрос о сравнении объектов по весовым показателям. В экологии это показатели учитывающие обилие. Наиболее последовательными схемами формализации таких типов являются: схема Б. И. Сёмкина на основе дескриптивных множеств и схема А.Чао (Chao) с основанными на обилии индексами (abundance-based indices)[19]. Также в зарубежной литературе устоялось представление индексах на основе инцидентности (incidence-based index), то есть индексах для булевых данных типа присутствие/отсутствие (presence/absence) признака. По сути, и те и другие могут быть описаны как частные случаи дескриптивных множеств.

Дискуссионными остаются: сравнение случайных событий (например, встречаемость) и информационных показателей. В схеме формализации отношений близости Б. И. Сёмкина предлагается выделять ряд аналитических интерпретаций для различных отношений близости: множественная, дескриптивная, вероятностная, информационная. Формально принадлежность к мерам сходства определяется системой аксиом (здесь E — произвольное множество):

  1.  K (A, B) \geqslant 0;  \forall A, B \mathcal {2} E (неотрицательность);
  2.  K (A, B) = K (B, A);  \forall A, B \mathcal {2} E (симметричность);
  3.  K (A, B) \geqslant K (A, A);  \forall A, B \mathcal {2} E («целое больше части»);
  4.  K (A, B) \leqslant K (A, A) + K (B, B);  \forall A, B \mathcal {2} E (субаддитивность).

Системы аксиом для мер сходства предлагали: А. Реньи[20], Ю. А. Воронин[21][22], А.Тверски[23], А. А. Викентьев, Г. С. Лбов[24], Г. В. Раушенбах[25], Б. И. Сёмкин[26][27] и др.

Как правило, совокупность мер близости представляют в виде матриц типа «объект-объект». Это, например, матрицы сходства, матрицы расстояний (в широком смысле — различия), матрицы совместных вероятностей, матрицы информационных функций. Большинство из них могут быть построены на основе: абсолютных или относительных мер, а они в свою очередь могут быть симметричными или несимметричными (последние часто называются мерами включения).

Многоместные коэффициенты[править | править вики-текст]

Такого рода коэффициенты используются для сравнения серии объектов. К ним относятся: среднее сходство Алёхина, индекс биотической дисперсии Коха, коэффициент рассеяния (дисперсности) Шенникова, мера бета-разнообразия Уиттекера, мера гомотонности и двойственная ей мера гетеротонности Миркина-Розенберга, коэффициент сходства серии описаний Сёмкина. В зарубежной литературе меры этого типа встречаются под названиями: многомерные коэффициенты, n-мерные коэфициенты, multiple-site similarity measure, multidimensional coefficient, multiple-community measure[28].[29][30]. Наиболее известный коэффициент был предложен Л.Кохом[31]:

 K (X_1,..., X_n ) = \frac{T - S}{(n - 1) S} ,

где  T = \sum^{n}_{i=1} {n (X_i)} , то есть сумма числа признаков каждого из объектов;  S = n (X_1 \cup ... \cup X_n) , то есть общее число признаков;  X_1 , ..., X_n  — совокупность n множеств (объектов).

Программное обеспечение для расчёта мер[править | править вики-текст]

Как правило, расчёт мер близости производится в модуле кластерного анализа программы. Наиболее часто используют: Statistica, но в соответствующем модуле меры сходства не представлены совсем, только расстояния. В SPSS(PASW Statistics) предлагается расчёт ряда мер сходства (меры Охаи, Жаккара, Сокала-Снита, Кульчинского, симметричная Дайса). Малых программ для расчёта мер близости и последущего графического представления зависимостей существует огромное количество[32][33]. Меры сходства же представлены крайне редко и в основном в специализированных программах для биологов[34]: Graphs, NTSYS, BIODIV, PAST, причём даже там их крайне мало (обычно только мера Жаккара и иногда мера Сёренсена). Также можно отметить TurboVEG и IBIS[35], в основе которых лежит база данных с модулями обработки, причём в программе IBIS реализовано наибольшее количество мер близости, используемых в настоящее время в биологии, географии и прочих областях.

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

  1. Magurran A.E. Measuring biological diversity. — Oxford, UK.: Blackwell Publishing, 2004. — 256 p.
  2. Песенко Ю. А. Принципы и методы количественного анализа в фаунистических исследованиях. — М.: Наука, 1982. — 287 с.
  3. Jaccard P. Distribution de la flore alpine dans le Bassin des Dranses et dans quelques regions voisines // Bull. Soc. Vaudoise sci. Natur. 1901. V. 37. Bd. 140. S. 241—272.
  4. Sörensen T. A method of establishing groups of equal amplitude in plant sociology based on similarity of species content // Kongelige Danske Videnskabernes Selskab. Biol. krifter. Bd V. № 4. 1948. P. 1-34.
  5. Kulczinsky S. Zespoly róslin w Pienach // Bull. intern. acad. polon. sci. lett. Cl. sci. math. natur. Ser. B. 1927. S. 2. P. 57-203.
  6. Ochiai A. Zoogeographical studies on the soleoid fishes found Japan and its neighboring regions. II // Bull. Jap. Soc. sci. Fish. 1957. V. 22. № 9. P. 526—530. (Аннотация на англ. Основной текст статьи на яп.)
  7. Szymkiewicz D. Une contribution statistique a la géographie floristique // Acta Soc. Bot. Polon. 1934. T. 34. № 3. P. 249—265.
  8. Simpson G.G. Holarctic mammalian faunas and continental relationship during the Cenozoic // Bull. Geol. Sci. America. 1947. V. 58. P. 613—688.
  9. Braun-Blanquet J. Pflanzensoziologie Grundzüge der Vegetationskunde. — Berlin: Verlaq von Julius springer, 1928. — 330 s.
  10. Sokal R.R., Sneath P.H.A. Principles of numerical taxonomy. — San Francisco: London: Freeman, 1963. — 359 p.
  11. Sneath P.H.A., Sokal R.R. Numerical taxonomy: The principles and practices of numerical classification. — San-Francisco: Freeman, 1973. — 573 p.
  12. Константинов А. С. Использование теории множеств в биогеографическом и экологическом анализе // Усп. соврем. биол. 1969. Т. 67. вып. 1. С 99-108.
  13. Levandowsky M., Winter D. Distance between sets // Nature. 1971. V.234. № 5323. P. 34-35.
  14. Ковалевская В. Б., Погожев И. Б., Погожева (Кусургашева) А. П. Количественные методы оценки степени близости памятников по процентному содержанию массового материала // Советская археология. 1970. № 3. С. 26-39.
  15. Renkonen O. Statististisch-ökologische Untersuchungen über die terrestrische Käferwelt finischen Bruchmoore // Acta zool. Soc. zool.-bot. fenn. «Vanamo». 1938. V. 6. fasc. 1. P. 1-231.
  16. Сёмкин Б. И. Дескриптивные множества и их приложения // Исследование систем. Т. 1. Анализ сложных систем. Владивосток: ДВНЦ АН СССР, 1973. С. 83-94.
  17. Сёмкин Б. И. Теоретико-графовые методы в сравнительной флористике // В кн.: Теоретические и методологические проблемы сравнительной флористики: Материалы 2-го рабочего совещания по сравнительной флористике. — Неринга: 1983. — С. 149—163.
  18. Сёмкин Б. И., Двойченков В. И. Об эквивалентности мер сходства и различия // Исследование систем. Т. 1. Анализ сложных систем. Владивосток: ДВНЦ АН СССР, 1973. С 95-104.
  19. Chao A, Chazdon RL, Colwell RK, Shen TJ. Abundance-based similarity indices and their estimation when there are unseen species in samples // Biometrics. 2006. № 62. P.361-371.
  20. Rényi A. On measures of dependence // Acta Math. Acad. Scien. Hung. 1959. V.10. № 3-4. P. 441—451.
  21. Воронин Ю. А. Введение мер сходства и связи для решения геолого-геофизических задач // Докл. АН СССР. 1971. Т. 139. № 5. С. 64-70.
  22. Воронин Ю. А. Начала теории сходства. — Новосибирск: Наука. Сиб. отд-ние, 1991. — 128 с.
  23. Tversky A. Features of similarity // Psychological Review. 1977. V.84. № 4. P. 327—352.
  24. Викентьев А. А., Лбов Г. С. О метризациях булевой алгебры предложений и информативности высказываний экспертов // Докл. АН. Информатика. 1998. Т. 361. № 2. С. 174—176.
  25. Раушенбах Г. В. Меры близости и сходства // Анализ нечисловой информации о социологических исследованиях. М.: Наука, 1985. С. 169—203.
  26. Сёмкин Б. И., Горшков М. В. Система аксиом симметричных функций двух переменных и меры, измеряющие отношения сходства различия, совместимости и зависимости для компонентов биоразнообразия // Вестник ТГЭУ. 2008. № 4. С. 31-46.
  27. Сёмкин Б. И., Горшков М. В. Аксиоматическое введение мер сходства, различия, совместимости и зависимости для компонентов биоразнообразия в многомерном случае // Вестник КрасГАУ. 2009. № 12. С. 18-24.
  28. Chao A., Hwang W.H., Chen Y.C., Kuo C.Y. Estimating the number of shared species in two communities (недоступная ссылка с 13-05-2013 (586 дней) — история) // Statistica Sinica. 2000. № 10. P. 227—246.
  29. Baselga A., Jiménez-Valverde A., Niccolini G. A multiple-site similarity measure independent of richness // Biol. Lett. 2007. № 3. P. 642—645.
  30. Diserud O.H., Ødegaard F. A multiple-site similarity measure // Biol. Lett. 2007. № 3. P. 20-22.
  31. Koch L.F. Index of biotal dispersity // Ecology. 1957. V. 38. № 1. P. 145—148.
  32. http://www.biometrica.tomsk.ru/list/other.htm Статистические ресурсы Интернета
  33. http://evolution.genetics.washington.edu Программы для филогенетических расчётов на Интернет-портале Вашингтонского университета
  34. Новаковский А. Б. Обзор программных средств, используемых для анализа геоботанических данных // Растительность России. 2006. № 9. С. 86-95.
  35. Зверев А. А. Информационные технологии в исследованиях растительного покрова. — Томск: ТМЛ-Пресс, 2007. −304 с.