TF-IDF

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции.

Мера TF-IDF часто используется в задачах анализа текстов и информационного поиска, например, как один из критериев релевантности документа поисковому запросу, при расчёте меры близости документов при кластеризации.

Структура формулы[править | править вики-текст]

TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова  t_{i} в пределах отдельного документа.

 \mathrm{tf}(t,d) = \frac{n_i}{\sum_k n_k} ,

где n_i есть число вхождений слова в документ, а в знаменателе — общее число слов в данном документе.

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. Основоположником данной концепции является Карен Спарк Джонс[1]. Учёт IDF уменьшает вес широкоупотребительных слов. Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF.

 \mathrm{idf}(t, D) =  \log \frac{|D|}{|(d_{i}\supset t_{i})|} ,[2]

где

  • |D| — количество документов в корпусе;
  •  |(d_{i}\supset t_{i})|  — количество документов, в которых встречается  t_{i} (когда  n_{i} \neq 0).

Выбор основания логарифма в формуле не имеет значения, поскольку изменение основания приводит к изменению веса каждого слова на постоянный множитель, что не влияет на соотношение весов.

Таким образом, мера TF-IDF является произведением двух сомножителей:

\mathrm{tfidf}(t,d,D) = \mathrm{tf}(t,d) \times \mathrm{idf}(t, D)

Большой вес в TF-IDF получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах.

Числовое применение[править | править вики-текст]

Существуют различные формулы, основанные на методе TF-IDF. Они отличаются коэффициентами, нормировками, использованием логарифмированных шкал. В частности, поисковая система Яндекс долгое время использовала нормировку по самому частотному термину в документе[источник не указан 1461 день].

Одной из наиболее популярных формул является формула BM25.

Пример[править | править вики-текст]

Если документ содержит 100 слов и слово[3] «заяц» встречается в нём 3 раза, то частота слова (TF) для слова «заяц» в документе будет 0,03 (3/100). Один из вариантов вычисления частоты документа (DF) определяется как количество документов содержащих слово «заяц», разделенное на количество всех документов. Таким образом, если «заяц» содержится в 1000 документов из 10 000 000 документов, то частота документа (DF) будет равной 0,0001 (1000/10000000). Для расчета окончательного значения веса слова необходимо разделить TF на DF (или умножить на IDF). В данном примере, TF-DF вес для слова «заяц» в выбранном документе будет 300 (0,03/0,0001).

Применение в модели векторного пространства[править | править вики-текст]

Мера TF-IDF часто используется для представления документов коллекции в виде числовых векторов, отражающих важность использования каждого слова из некоторого набора слов (количество слов набора определяет размерность вектора) в каждом документе. Подобная модель называется векторной моделью (en:Vector space model) и даёт возможность сравнивать тексты, сравнивая представляющие их вектора в какой либо метрике (евклидово расстояние, косинусная мера, манхэттенское расстояние, расстояние Чебышёва и др.), то есть производя кластерный анализ.

Примечания[править | править вики-текст]

  1. Jones, 2004
  2. В некоторых вариантах формулы не используется логарифмирование.
  3. Обычно перед анализом документа слова приводятся морфологическим анализатором к нормальной форме.

Литература[править | править вики-текст]

См. также[править | править вики-текст]

Ссылки[править | править вики-текст]