Ключевое слово

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
О термине из программирования см. Зарезервированное слово.

Ключевое словослово в тексте, способное в совокупности с другими ключевыми словами дать высокоуровневое описание содержания текстового документа, позволяющее выявить его тематику. В вебе используется главным образом для поиска.

Набор ключевых слов документа называют поисковым образом документа[источник не указан 2377 дней]. Набор ключевых слов близок к аннотации, плану и конспекту, которые тоже представляют документ с меньшей детализацией, но лишён синтаксической структуры.

Когда используют термин «ключевое слово», подразумевают несколько близких, но не сводимых друг к другу понятий.

Ключевое слово в анализе текста[править | править вики-текст]

Ключевые слова в анализе текста (в том числе, при построении индекса в поисковых системах) — особо важные, общепонятные, ёмкие и показательные для отдельно взятой культуры слова в тексте, набор которых может дать высокоуровневое описание его содержания для читателя, обеспечив компактное представление и хранение его смысла в памяти. Ключевые слова (КС) характеризуются тем, что:

  • являются наиболее употребительными (частотными) наименованиями, обозначают признак предмета, состояние или действие;
  • представлены значимой лексикой, достаточно обобщены по своей семантике (средней степени абстракции), стилистически нейтральны, не оценочны;
  • связаны друг с другом сетью семантических связей, пересечения значений;
  • более половины слов ядра тематического компонента состоит из ключевых слов, а минимальный набор КС приближается к инварианту содержания при их логическом упорядочивании;
  • набор КС состоит из 5-15 или 8-10 слов, что соответствует объему оперативной памяти человека, в тексте содержится 25-30% ключевых слов;
  • набор КС определяет контексты слов, обладающих максимальной предсказуемостью.

Извлечение ключевых слов[править | править вики-текст]

До настоящего времени не разработана последовательная методика обнаружения ключевых слов человеком. Отсюда вытекает и сложность разработки методов и алгоритмов извлечения КС для вычислительной техники. В современных алгоритмах извлечения КС можно выделить три последовательных этапа:

  • Предобработка. Здесь могут быть реализованы такие вспомогательные процедуры как графематический анализ (токенизация текста, удаление разметки), морфологический разбор, лексическая нормализация (в том числе согласование синонимов), лемматизация (стемминг), частеречевая разметка (POS-tagging), удаление стоп-слов (служебной лексики) и т.д.
  • Распознавание. Принятие решения о принадлежности того или иного слова-кандидата к множеству КС.
  • Постобработка. Здесь может осуществляться усечение списка, его ранжирование и упорядочивание, визуализация методами когнитивной графики т.д.

Совокупность методов автоматического извлечения КС классифицируют по нескольким основаниям:

  • наличию элементов обучения и подходов к его реализации;
  • типу математического аппарата системы распознавания, обусловленного формой информации представления признаков ключевых слов;
  • типу используемых для реализации метода лингвистических ресурсов.

Ключевое слово в разметке веб-страниц[править | править вики-текст]

  • В HTML для задания ключевых слов есть элементы HTML meta с атрибутом keywords. Такой путь задания ключевых слов открывает ещё больше возможностей для злоупотребления, поэтому некоторые поисковые системы используют этот тег как фактор для улучшения ранжирования страниц, а некоторые нет[1]. Так например, Google часто игнорирует ключевые слова в теге из-за слишком большого злоупотребления им в прошлом[2]. Однако их используют другие пользовательские агенты (например, веб-браузеры для поиска по закладкам).
  • В микроформатах XHTML ключевые слова, описывающие документ, представлены в виде списка ссылок, каждая из которых должна вести на страницу, содержащую список документов, также содержащих это ключевое слово. Таким образом, возможность злоупотреблений несколько уменьшается, поскольку каждая ссылка должна вести к реальному содержимому. Для таких ключевых слов чаще используются термины «теги», «метки», а на уровне кода реализуются они с помощью микроформата tag-rel.

Ключевые слова — это основной способ упорядочивания контента в фолксономиях.

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

  1. Benny Alexander. Practical SEO Techniques: A Complete Free Guide to professonal SEO Pratices. — Macronimous.com, 2014-01-09. — С. 15. — 30 с.
  2. Simon Kloostra. Joomla! 3 SEO and Performance. — Apress, 2015-05-21. — С. 26. — 178 с. — ISBN 9781484211243.

Литература[править | править вики-текст]

  • Ванюшкин А. С. Методы и алгоритмы извлечения ключевых слов / А. С. Ванюшкин, Л. А. Гращенко // Новые информационные технологии в автоматизированных системах. - 2016. - №19. - С. 85-93.
  • Корытная М. Л. Роль заголовка и ключевых слов в понимании художественного текста: Автореф. дис. … канд. филол. наук. Тверь, 1996.
  • Роднянский В. Л. О роли ключевых слов в понимании текста // Психолингвистические проблемы семантики и понимания текста. Калинин, 1986. С.106-113.
  • Сахарный Л. В., Штерн А. С. Набор ключевых слов как тип текста // Лексические аспекты в системе профессионально-ориентированного обучения иноязычной речевой деятельности. Пермь: Пермский политехнический ун-т, 1988. С. 34—51.
  • Сахарный Л. В. Расположение ключевых слов в структуре развернутого текста (к изучению деривационных механизмов компрессии текста) // Деривация в речевой деятельности (Общие вопросы. Текст. Семантика). Пермь, 1988. С.27—29.
  • Сиротко-Сибирский С. А. Смысловое содержание текста и его отражение в ключевых словах (на материале русских текстов публицистического стиля): Автореф. дис. … канд. филол. наук. Л., 1988