Алгоритм HITS: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[отпатрулированная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
tagged isolated of cluster �икипедия:ConnectivityProjectInternationalization0.
Нет описания правки
Строка 1: Строка 1:
'''Алгоритм HITS''' ({{lang-en|Hyperlink Induced Topic Search}}), предложенный в 1996 году Джоном Клейнбергом, является реализацией латентно-семантического индексирования к ранжированию выдачи [[Поисковая система|информационно-поисковых систем]].{{sfn|Algorithm HITS|2009}}Метрика HITS часто используется для ответа на широкую тему запросов и нахождения сообществ документов({{lang-en|Tightly-Knit Community}}), в [[Интернет]]е. Идея алгоритма основана на предположении, что [[Гиперссылка|гиперссылки]] кодируют значительное количество скрытых авторских страниц.{{sfn|The metric of HITS|2005|c=55}}
'''Алгоритм HITS''' ({{lang-en|Hyperlink Induced Topic Search}}), предложенный в 1996 году Джоном Клейнбергом, позволяет находить Интернет-страницы, соответствующие запросу пользователя, на основе информации, заложенной в гиперссылки.{{sfn|HITS|2008|c=27}}Метрика HITS часто используется для ответа на широкую тему запросов и нахождения сообществ документов({{lang-en|Tightly-Knit Community}}), в [[Интернет|Интернете]]. Идея алгоритма основана на предположении, что [[Гиперссылка|гиперссылки]] кодируют значительное количество скрытых авторитетных страниц.{{sfn|The metric of HITS|2005|c=55}}


'''Авторитетный документ(авторитетная страница,автор)''' – это документ, соответствующий запросу пользователя, имеющий больший удельный вес среди документов данной тематики, то есть большее число документов ссылаются на данный документ.{{sfn|HITS|2008|c=27}}
== Описание ==
По своей функциональности, [[алгоритм]] HITS схож с алгоритмом [[PageRank]]. В алгоритме HITS, авторские страницы({{lang-en|Authority pages}}: первоисточники, на которые ведут ссылки) определяются как высококачественные страницы, относящиеся к определенной теме или [[Поисковый запрос|поисковому запросу]]. Посреднические страницы({{lang-en|[[:en:HubPages|Hub pages]]}}: страницы, от которых идут ссылки цитирования) предоставляют указатели на авторские страницы, но сами таковыми могут и не являться.{{sfn|Cronin|2004|с=312}}
'''Хаб-документ(хаб-страница,посредник)''' – это документ, содержащий много ссылок на авторитетные документы.


Страница, на которую ссылаются многие другие точки должна быть хорошим "автором". В свою очередь страница, которая указывает на многие другие, должна быть хорошим "посредником". Основываясь на этом, в алгоритме HITS для каждой [[Веб-страница|веб-страницы]] рассчитываются две оценки: оценка авторитетности и посредническая оценка. То есть для каждой страницы <math>d_j\in{D}</math> рекурсивно вычисляется ее значимость как "автора" <math>a(d_j)</math> и "посредника" <math>h(d_j)</math> по формулам:{{sfn|Kleinberg|1999}}{{sfn|Algorithm HITS|2009}}
Страница, на которую ссылаются многие другие точки должна быть хорошим "автором". В свою очередь страница, которая указывает на многие другие, должна быть хорошим "посредником". Основываясь на этом, в алгоритме HITS для каждой [[Веб-страница|веб-страницы]] рассчитываются две оценки: оценка авторитетности и посредническая оценка. То есть для каждой страницы рекурсивно вычисляется ее значимость как "автора" и "посредника".{{sfn|Kleinberg|1999}}{{sfn|Algorithm HITS|2009}}


==Алгоритм==
:<math>a(d_j)=\sum_{i=1,i\ne{j}}^D h(d_j)</math>,<br /><math>h(d_j)=\sum_{i=1,i\ne{j}}^D a(d_j)</math>
Первым шагом в [[Алгоритм|алгоритме]] HITS, является получение наиболее релевантных страниц в [[Поисковый запрос|поисковом запросе]]. Это множество называется корневым набором и может быть получено путем принятия самых популярных страниц n, возвращаемых текстовым алгоритмом поиска. Базовый набор формируется путем увеличения корневого набора со всеми [[Веб-страница|веб-страницами]], которые с ним связаны и с некоторыми страницами, ссылающихся на него. Веб-страницы в базовом наборе и все [[Гиперссылка|гиперссылки]] между этих страниц, образуют сосредоточенный подграф. HITS вычисления выполняются только на этом подграфе.


Оценки авторитетного документа и посредника определены в терминах друг друга во взаимной [[Рекурсия|рекурсии]]. Оценка авторитетности страницы вычисляется как сумма значений оценок посреднических страниц, которые указывают на эту страницу. Значение оценки посредника вычисляется как сумма оценок авторитетных страниц, на которые он указывает
В зависимости от этих значений рассчитывается важность веб-страниц для конкретного запроса и затем отображается пользователю.Рейтинг модуля HITS вычисляет ранг [[Веб-страница|веб-страницы]] в автономном режиме после того, как они были загружены и сохранены в локальной базе данных.{{sfn|Hubs and authorities|2010|c=5}}


Алгоритм выполняет ряд [[Итерация|итераций]], каждая из которых состоит из двух основных этапов:
== Алгоритм HITS и PageRank ==
* <b>Обновление авторитетности</b>. Обновление авторитетной оценки каждой вершины подграфа, эквивалентное сумме посреднических оценок каждой из вершин, указывающих на них.
[[Алгоритм]] HITS имеет несколько важных отличий от алгоритма [[PageRank]].{{sfn|PageRank and HITS|2010|с=257}}
* <b>Хаб-обновление</b>. Обновление посреднической оценки каждой вершины подграфа, путем суммирования авторитетных оценок каждой из вершин, на которые они указывают.


Оценка авторитетности и посредническая оценка для вершины рассчитывается по следующему алгоритму:
* Алгоритм HITS вычисляет не только ранг каждого узла, но также дает посредническую оценку.
* Начните с вершин, оценка авторитетности и посредническая оценка которых равна 1.
* Алгоритм PageRank содержит свободный параметр α, который обычно не включен в алгоритм HITS.
* Выполнение правила обновления авторитетности.
* Приоритетом, в результате работы алгоритма PageRank, пользуются, как правило, более старшие ресурсы, в то время как HITS алгоритм имеет меньший уклон в этом отношении.
* Выполнение правила хаб-обновления.
* Алгоритм PageRank может находить единственное уникальное решение.
* Нормализация значений путем деления каждой посреднической оценки на корень квадратный из суммы квадратов всех посреднических оценок, и деления каждой оценки авторитетности на корень квадратный из суммы квадратов всех оценок авторитетности.
* Повторение со второго шага по мере необходимости.


==Детализация==
Несмотря на различия HITS и PageRank, в этих алгоритмах общее то, что авторитетность (вес) узла зависит от веса других узлов, а уровень "посредника" зависит от того, насколько авторитетны узлы, на которые он ссылается.
Чтобы начать ранжирование, <math> \forall p </math>, <math>\mathrm{auth}(p) = 1</math> и <math>\mathrm{hub}(p) = 1</math>. Рассмотрим два типа обновлений: правило обновления авторитетности и хаб-обновление. Для того чтобы вычислить оценки авторитетности/посредника применяются повторяющиеся [[Итерация|итерации]] правил обновления авторитетности и хаб-обновления. K-шаг применения алгоритма подразумевает под собой применение k-раз первого правила обновления авторитетности и затем правило хаб-обновления.

===Правило обновления авторитетности===
<math>\forall p</math>, мы получаем <math>\mathrm{auth}(p)</math> = <math>\displaystyle\sum_{i=1}^n \mathrm{hub}(i)</math>
где n - общее количество страниц, связанных с p и i - страница, связанная с p. Таким образом, оценка авторитетности страницы вычисляется как сумма значений оценок посреднических страниц, которые указывают на эту страницу.

===Правило хаб-обновления===
<math>\forall p</math>, мы получаем <math>\mathrm{hub}(p)</math> = <math>\displaystyle\sum_{i=1}^n \mathrm{auth}(i)</math>
где n - общее количество страниц, на которые указывает p и i - страница, на которую указывает p. Таким образом, посредническая оценка страницы вычисляется как сумма значений оценок авторитетности страниц, на которых она ссылается.

В зависимости от этих значений рассчитывается важность [[Веб-страница|веб-страниц]] для конкретного запроса и затем отображается пользователю.Рейтинг модуля HITS вычисляет ранг [[Веб-страница|веб-страницы]] в автономном режиме после того, как они были загружены и сохранены в локальной базе данных.{{sfn|Hubs and authorities|2010|c=5}}

===Нормализация===
Окончательные оценки вершин определяются после бесконечного повторения алгоритма. Прямое и последовательное применение правил хаб-обновления и обновления авторитетности, приводит к расходящимся значениям, которые необходимо нормализовать матрицой после каждой итерации. Таким образом, значения,полученные в результате этого процесса в конечном итоге сходятся.


==Алгоритм HITS и PageRank==
[[Алгоритм|Алгоритм]] HITS имеет несколько важных отличий от алгоритма [[PageRank|PageRank]].{{sfn|PageRank and HITS|2010|с=257}}

*Алгоритм HITS вычисляет не только ранг каждого узла, но также дает посредническую оценку.
*Алгоритм PageRank содержит свободный параметр α, который обычно не включен в алгоритм HITS.
*Приоритетом, в результате работы алгоритма PageRank, пользуются, как правило, более старшие ресурсы, в то время как HITS алгоритм имеет меньший уклон в этом отношении.
*Алгоритм PageRank может находить единственное уникальное решение.

Несмотря на различия HITS и PageRank, в этих алгоритмах общее то, что авторитетность (вес) узла зависит от веса других узлов, а уровень "посредника" зависит от того, насколько авторитетны узлы, на которые он ссылается.


Расчет авторитетности отдельных документов сегодня широко используется в таких приложениях, как определение порядка сканирования документов в сети роботом [[Поисковая система|ИПС]], ранжирование результатов поиска, формирование тематических обзоров и т.п.
Расчет авторитетности отдельных документов сегодня широко используется в таких приложениях, как определение порядка сканирования документов в сети роботом [[Поисковая система|ИПС]], ранжирование результатов поиска, формирование тематических обзоров и т.п.
Строка 26: Строка 56:
В свою очередь, такие технологии приводят к необходимости постоянного совершенствования [[Алгоритм|алгоритмов]] ранжирования в поисковых системах, ориентации на содержательную составляющую [[Веб-документ|веб-документов]] при определении их рангов.{{sfn|Algorithm HITS|2009}}
В свою очередь, такие технологии приводят к необходимости постоянного совершенствования [[Алгоритм|алгоритмов]] ранжирования в поисковых системах, ориентации на содержательную составляющую [[Веб-документ|веб-документов]] при определении их рангов.{{sfn|Algorithm HITS|2009}}


== Недостатки HITS ==
==Недостатки HITS==


При оценке алгоритма HITS было проведено много исследований и показано, что в то время как алгоритм хорошо работает для большинства запросов, он не работает для некоторых других.
При оценке алгоритма HITS было проведено много исследований и показано, что в то время как алгоритм хорошо работает для большинства запросов, он не работает для некоторых других.
Существует несколько причин{{sfn|Problems with the HITS algorithm|2011|c=255}}:
Существует несколько причин{{sfn|Problems with the HITS algorithm|2011|c=255}}:
:* '''Посредники и авторы.'''
:* <b>Посредники и авторы.</b>
Нецелесообразность четкого различия между "посредниками" и "авторами", поскольку многие посреднические страницы также являются и авторскими.
Нецелесообразность четкого различия между "посредниками" и "авторами", поскольку многие посреднические страницы также являются и авторскими.
:* '''Сдвиг тематики'''({{lang-en|Topic drift}}).
:* <b>Сдвиг тематики</b>({{lang-en|Topic drift}}).
Доминирующее расположение некоторых тематически тесно связанных документов в результате работы алгоритма HITS. В некоторых случаях, эти документы могут быть нерелеванты поставленному [[Поисковый запрос|запросу]]. Было зафиксировано, что в одном случае, когда искомым элементом запроса был «Ягуар», алгоритм HITS сходился к футбольной команде под названием Jaguars.
Доминирующее расположение некоторых тематически тесно связанных документов в результате работы алгоритма HITS. В некоторых случаях, эти документы могут быть нерелеванты поставленному [[Поисковый запрос|запросу]]. Было зафиксировано, что в одном случае, когда искомым элементом запроса был «Ягуар», алгоритм HITS сходился к футбольной команде под названием Jaguars.


Для решения этой проблемы был предложен алгоритм PHITS{{sfn|Algorithm HITS|2009}}, как некоторое расширение стандартного алгоритма HITS. В рамках этого алгоритма предполагается: <math>D</math> - множество цитирующих документов, <math>C</math> - множество ссылок, <math>Z</math> - множество классов (факторов). Предполагается также, что событие <math>d\in{D}</math> происходит с вероятностью <math>P(d)</math>.
Для решения этой проблемы был предложен алгоритм PHITS{{sfn|Algorithm HITS|2009}}, как некоторое расширение стандартного алгоритма HITS. В рамках этого алгоритма предполагается: <math>D</math> - множество цитирующих документов, <math>C</math> - множество ссылок, <math>Z</math> - множество классов (факторов). Предполагается также, что событие <math>d\in{D}</math> происходит с вероятностью <math>P(d)</math>.
Условные вероятности <math>P(c|z)</math> и <math>P(z|d)</math> используются для описания зависимостей между наличием ссылки <math>c\in{C}</math> , латентным фактором <math>z\in{Z}</math> и документом <math>d\in{D}</math>.
Условные вероятности <math>P(c|z)</math> и <math>P(z|d)</math> используются для описания зависимостей между наличием ссылки <math>c\in{C}</math> , латентным фактором <math>z\in{Z}</math> и документом <math>d\in{D}</math>.


Оценивается [[функция правдоподобия]]:
Оценивается [[Функция правдоподобия|функция правдоподобия]]:


: <math>L(C|D)=\prod^\ _{c\in{C},d\in{D}}P(d,c)=\prod^\ _{c\in{C},d\in{D}}P(d)P(c|d)</math>,
: <math>L(C|D)=\prod^\ _{c\in{C},d\in{D}}P(d,c)=\prod^\ _{c\in{C},d\in{D}}P(d)P(c|d)</math>,
Строка 44: Строка 74:
: <math>P(c|d)=\sum_{z\in{Z}} P(c|z)P(z|d)</math>
: <math>P(c|d)=\sum_{z\in{Z}} P(c|z)P(z|d)</math>


Цель алгоритма PHITS состоит в том, чтобы подобрать <math>P(z)</math>, <math>P(c|z)</math>, <math>P(z|d)</math> для максимизации <math>L(C|D)</math> .
Цель алгоритма PHITS состоит в том, чтобы подобрать <math>P(z)</math>, <math>P(c|z)</math>, <math>P(z|d)</math> для максимизации <math>L(C|D)</math> .


После этого:
После этого:
Строка 54: Строка 84:
Для вычисления рангов необходимо задать количество факторов в множестве <math>Z</math>, и тогда <math>P(c|z)</math> будет характеризовать качество страницы как "автора" в контексте тематики. К недостаткам метода надо отнести то, что итеративный процесс чаще всего останавливается не на абсолютном, а на локальном максимуме функции правдоподобия <math>L</math>. Вместе с тем в ситуациях, когда в множестве найденных веб-страниц нет явного доминирования тематики запроса, PHITS превосходит алгоритм HITS.
Для вычисления рангов необходимо задать количество факторов в множестве <math>Z</math>, и тогда <math>P(c|z)</math> будет характеризовать качество страницы как "автора" в контексте тематики. К недостаткам метода надо отнести то, что итеративный процесс чаще всего останавливается не на абсолютном, а на локальном максимуме функции правдоподобия <math>L</math>. Вместе с тем в ситуациях, когда в множестве найденных веб-страниц нет явного доминирования тематики запроса, PHITS превосходит алгоритм HITS.


:* '''Автоматически генерируемые ссылки.'''
:* <b>Автоматически генерируемые ссылки.</b>
Некоторые из ссылок генерируются компьютером, но алгоритм HITS по-прежнему дает им равные значения.
Некоторые из ссылок генерируются компьютером, но алгоритм HITS по-прежнему дает им равные значения.
:* '''Нерелевантные документы.'''
:* <b>Нерелевантные документы.</b>
Некоторые запросы могут возвращать на высокое место в рейтинге нерелевантные документы, что приводит к ошибочным результатам работы алгоритма HITS.
Некоторые запросы могут возвращать на высокое место в рейтинге нерелевантные документы, что приводит к ошибочным результатам работы алгоритма HITS.
Строка 67: Строка 97:
== Литература ==
== Литература ==


* {{статья
* {{книга
|автор= Ландэ Д.В.,Снарский А.А.,Безсуднов И.В.
|автор= Ландэ Д.В.,Снарский А.А.,Безсуднов И.В.
|заглавие=Интернетика. Навигация в сложных сетях: модели и алгоритмы
|заглавие=Интернетика. Навигация в сложных сетях: модели и алгоритмы
|язык=ru
|язык=ru
|ссылка=http://www.webground.su/services.php?param=book&part=chapter%205_6_1.htm
|ссылка=http://www.webground.su/services.php?param=book&part=chapter%205_6_1.htm
|издательство=Либроком
|страниц=264
|год=2009
|год=2009
|ref=Algorithm HITS
|ref=Algorithm HITS
|isbn=978-5-397-00497-8


}}
}}
* {{статья
* {{книга
|автор= Blaise Cronin
|автор= Blaise Cronin
|заглавие=Annual Review of Information Science and Technology
|заглавие=Annual Review of Information Science and Technology
|язык=en
|язык=en
|ссылка=http://books.google.ru/books?id=UK3HcW-R7l8C&printsec=frontcover&ei=JfPoUJehBZ2MzQTxuIDoCA&hl=ru&cd=2#v=onepage&q&f=false
|ссылка=http://books.google.ru/books?id=UK3HcW-R7l8C&printsec=frontcover&ei=JfPoUJehBZ2MzQTxuIDoCA&hl=ru&cd=2#v=onepage&q&f=false
|страниц=674
|год=2004
|год=2004
|ref=Cronin
|ref=Cronin
|isbn=1573872091
}}
}}
* {{статья
* {{статья
Строка 92: Строка 127:
|ref=Kleinberg
|ref=Kleinberg
}}
}}
* {{статья
* {{книга
|автор=Gupta G.K.
|издательство=PHI Learning Pvt. Ltd.
|издательство=PHI Learning Pvt. Ltd.
|заглавие=Introduction to Data Mining with Case Studies: 2nd Edition
|заглавие=Introduction to Data Mining with Case Studies: 2nd Edition
Строка 98: Строка 134:
|ссылка=http://books.google.ru/books?id=1e-yXCZbracC&printsec=frontcover&hl=ru#v=onepage&q&f=false
|ссылка=http://books.google.ru/books?id=1e-yXCZbracC&printsec=frontcover&hl=ru#v=onepage&q&f=false
|год=2011
|год=2011
|страниц=491
|ref=Problems with the HITS algorithm
|ref=Problems with the HITS algorithm
|isbn=978-81-203-4326-9
}}
}}
* {{статья
* {{книга
|автор = Leo J. Grady, Jonathan R. Polimeni
|автор = Leo J. Grady, Jonathan R. Polimeni
|заглавие=Discrete Calculus. Applied Analysis on Graphs for Computational Science
|заглавие=Discrete Calculus. Applied Analysis on Graphs for Computational Science
|язык=en
|язык=en
|ссылка=http://ivanych.net/doc/DiscreteCalculus_AppliedAnalysisOnGraphsForComputationalScience_Grady_Polimeni.pdf
|ссылка=http://ivanych.net/doc/DiscreteCalculus_AppliedAnalysisOnGraphsForComputationalScience_Grady_Polimeni.pdf
|издательство=Springer
|год=2010
|год=2010
|страниц=366
|ref= PageRank and HITS
|ref= PageRank and HITS
|isbn=978-1-84996-289-6
}}
}}
* {{статья
* {{статья
|автор=Крижановский А.А.
|заглавие= Математическое и программное обеспечение построения списков семантически близких словна основе рейтинга вики-текстов
|язык=ru
|ссылка=http://cdn.scipeople.com/materials/97/synonym_search_wp2.pdf
|год=2008
|ref=HITS

}}
* {{книга
|автор= Anthony Scime
|автор= Anthony Scime
|заглавие=Web Mining: Applications and Techniques
|заглавие=Web Mining: Applications and Techniques
|издательство=Idea Group Inc.
|язык=en
|язык=en
|ссылка=http://books.google.ru/books?id=TDhPMs3adw0C&printsec=frontcover&hl=ru#v=onepage&q&f=false
|ссылка=http://books.google.ru/books?id=TDhPMs3adw0C&printsec=frontcover&hl=ru#v=onepage&q&f=false
|страниц=433
|год=2005
|год=2005
|ref=The metric of HITS
|ref=The metric of HITS
|isbn=1591404150


}}
}}
Строка 126: Строка 179:


}}
}}

{{Изолированная статья}}


[[Категория:Ссылочное ранжирование]]
[[Категория:Ссылочное ранжирование]]
Строка 138: Строка 189:
[[en:HITS algorithm]]
[[en:HITS algorithm]]
[[es:Algoritmo HITS]]
[[es:Algoritmo HITS]]
[[eu:HITS algoritmoa]]
[[fr:Algorithme HITS]]
[[hu:HITS]]
[[pl:HITS]]

Версия от 12:22, 9 января 2013

Алгоритм HITS (англ. Hyperlink Induced Topic Search), предложенный в 1996 году Джоном Клейнбергом, позволяет находить Интернет-страницы, соответствующие запросу пользователя, на основе информации, заложенной в гиперссылки.[1]Метрика HITS часто используется для ответа на широкую тему запросов и нахождения сообществ документов(англ. Tightly-Knit Community), в Интернете. Идея алгоритма основана на предположении, что гиперссылки кодируют значительное количество скрытых авторитетных страниц.[2]

Авторитетный документ(авторитетная страница,автор) – это документ, соответствующий запросу пользователя, имеющий больший удельный вес среди документов данной тематики, то есть большее число документов ссылаются на данный документ.[1]

Хаб-документ(хаб-страница,посредник) – это документ, содержащий много ссылок на авторитетные документы.

Страница, на которую ссылаются многие другие точки должна быть хорошим "автором". В свою очередь страница, которая указывает на многие другие, должна быть хорошим "посредником". Основываясь на этом, в алгоритме HITS для каждой веб-страницы рассчитываются две оценки: оценка авторитетности и посредническая оценка. То есть для каждой страницы рекурсивно вычисляется ее значимость как "автора" и "посредника".[3][4]

Алгоритм

Первым шагом в алгоритме HITS, является получение наиболее релевантных страниц в поисковом запросе. Это множество называется корневым набором и может быть получено путем принятия самых популярных страниц n, возвращаемых текстовым алгоритмом поиска. Базовый набор формируется путем увеличения корневого набора со всеми веб-страницами, которые с ним связаны и с некоторыми страницами, ссылающихся на него. Веб-страницы в базовом наборе и все гиперссылки между этих страниц, образуют сосредоточенный подграф. HITS вычисления выполняются только на этом подграфе.

Оценки авторитетного документа и посредника определены в терминах друг друга во взаимной рекурсии. Оценка авторитетности страницы вычисляется как сумма значений оценок посреднических страниц, которые указывают на эту страницу. Значение оценки посредника вычисляется как сумма оценок авторитетных страниц, на которые он указывает

Алгоритм выполняет ряд итераций, каждая из которых состоит из двух основных этапов:

  • Обновление авторитетности. Обновление авторитетной оценки каждой вершины подграфа, эквивалентное сумме посреднических оценок каждой из вершин, указывающих на них.
  • Хаб-обновление. Обновление посреднической оценки каждой вершины подграфа, путем суммирования авторитетных оценок каждой из вершин, на которые они указывают.

Оценка авторитетности и посредническая оценка для вершины рассчитывается по следующему алгоритму:

  • Начните с вершин, оценка авторитетности и посредническая оценка которых равна 1.
  • Выполнение правила обновления авторитетности.
  • Выполнение правила хаб-обновления.
  • Нормализация значений путем деления каждой посреднической оценки на корень квадратный из суммы квадратов всех посреднических оценок, и деления каждой оценки авторитетности на корень квадратный из суммы квадратов всех оценок авторитетности.
  • Повторение со второго шага по мере необходимости.

Детализация

Чтобы начать ранжирование, , и . Рассмотрим два типа обновлений: правило обновления авторитетности и хаб-обновление. Для того чтобы вычислить оценки авторитетности/посредника применяются повторяющиеся итерации правил обновления авторитетности и хаб-обновления. K-шаг применения алгоритма подразумевает под собой применение k-раз первого правила обновления авторитетности и затем правило хаб-обновления.

Правило обновления авторитетности

, мы получаем = где n - общее количество страниц, связанных с p и i - страница, связанная с p. Таким образом, оценка авторитетности страницы вычисляется как сумма значений оценок посреднических страниц, которые указывают на эту страницу.

Правило хаб-обновления

, мы получаем = где n - общее количество страниц, на которые указывает p и i - страница, на которую указывает p. Таким образом, посредническая оценка страницы вычисляется как сумма значений оценок авторитетности страниц, на которых она ссылается.

В зависимости от этих значений рассчитывается важность веб-страниц для конкретного запроса и затем отображается пользователю.Рейтинг модуля HITS вычисляет ранг веб-страницы в автономном режиме после того, как они были загружены и сохранены в локальной базе данных.[5]

Нормализация

Окончательные оценки вершин определяются после бесконечного повторения алгоритма. Прямое и последовательное применение правил хаб-обновления и обновления авторитетности, приводит к расходящимся значениям, которые необходимо нормализовать матрицой после каждой итерации. Таким образом, значения,полученные в результате этого процесса в конечном итоге сходятся.


Алгоритм HITS и PageRank

Алгоритм HITS имеет несколько важных отличий от алгоритма PageRank.[6]

  • Алгоритм HITS вычисляет не только ранг каждого узла, но также дает посредническую оценку.
  • Алгоритм PageRank содержит свободный параметр α, который обычно не включен в алгоритм HITS.
  • Приоритетом, в результате работы алгоритма PageRank, пользуются, как правило, более старшие ресурсы, в то время как HITS алгоритм имеет меньший уклон в этом отношении.
  • Алгоритм PageRank может находить единственное уникальное решение.

Несмотря на различия HITS и PageRank, в этих алгоритмах общее то, что авторитетность (вес) узла зависит от веса других узлов, а уровень "посредника" зависит от того, насколько авторитетны узлы, на которые он ссылается.

Расчет авторитетности отдельных документов сегодня широко используется в таких приложениях, как определение порядка сканирования документов в сети роботом ИПС, ранжирование результатов поиска, формирование тематических обзоров и т.п.

В настоящее время приобрели широкое распространение технологии искусственного повышения рангов отдельных веб-документов или их групп веб-сайтов путем установления гиперссылок, не имеющих отношения к их содержанию. Эти технологии, называемые методами поисковой оптимизации SEO (англ. Search Engine Optimization), основываются на приспособлении к существующим алгоритмам ранжирования веб-документов наиболее популярными (поисковыми системами).

В свою очередь, такие технологии приводят к необходимости постоянного совершенствования алгоритмов ранжирования в поисковых системах, ориентации на содержательную составляющую веб-документов при определении их рангов.[4]

Недостатки HITS

При оценке алгоритма HITS было проведено много исследований и показано, что в то время как алгоритм хорошо работает для большинства запросов, он не работает для некоторых других. Существует несколько причин[7]:

  • Посредники и авторы.

Нецелесообразность четкого различия между "посредниками" и "авторами", поскольку многие посреднические страницы также являются и авторскими.

  • Сдвиг тематики(англ. Topic drift).

Доминирующее расположение некоторых тематически тесно связанных документов в результате работы алгоритма HITS. В некоторых случаях, эти документы могут быть нерелеванты поставленному запросу. Было зафиксировано, что в одном случае, когда искомым элементом запроса был «Ягуар», алгоритм HITS сходился к футбольной команде под названием Jaguars.

Для решения этой проблемы был предложен алгоритм PHITS[4], как некоторое расширение стандартного алгоритма HITS. В рамках этого алгоритма предполагается: - множество цитирующих документов, - множество ссылок, - множество классов (факторов). Предполагается также, что событие происходит с вероятностью . Условные вероятности и используются для описания зависимостей между наличием ссылки , латентным фактором и документом .

Оценивается функция правдоподобия:

,

Цель алгоритма PHITS состоит в том, чтобы подобрать , , для максимизации .

После этого:

 – ранги "авторов";
 – ранги "посредников".

Для вычисления рангов необходимо задать количество факторов в множестве , и тогда будет характеризовать качество страницы как "автора" в контексте тематики. К недостаткам метода надо отнести то, что итеративный процесс чаще всего останавливается не на абсолютном, а на локальном максимуме функции правдоподобия . Вместе с тем в ситуациях, когда в множестве найденных веб-страниц нет явного доминирования тематики запроса, PHITS превосходит алгоритм HITS.

  • Автоматически генерируемые ссылки.

Некоторые из ссылок генерируются компьютером, но алгоритм HITS по-прежнему дает им равные значения.

  • Нерелевантные документы.

Некоторые запросы могут возвращать на высокое место в рейтинге нерелевантные документы, что приводит к ошибочным результатам работы алгоритма HITS.

См. также

Примечания

Литература