Индекс удобочитаемости

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Индекс удобочитаемости — мера определения сложности восприятия текста читателем. Индекс удобочитаемости может вычисляться на основе нескольких параметров: длины предложений, слов, удельного количества наиболее частотных (или редких) слов и т. д.

Индекс удобочитаемости Флеша[править | править вики-текст]

Наиболее популярная мера была создана Рудольфом Флешем, изначально для английского языка. Она оценивает сложность текста по следующей формуле:


FRE = 206.835 - 1.015 \left ( \frac{\mbox{total words}}{\mbox{total sentences}} \right ) - 84.6 \left ( \frac{\mbox{total syllables}}{\mbox{total words}} \right)[1]

Либо:

 FRE = 206.835 − (1.015 × ASL) − (84.6 × ASW)

где:

  • ASL — средняя длина предложения в словах (англ. Average Sentence Length).
  • ASW — средняя длина слова в слогах (англ. Average Number of Syllables per Word)[2]

Индекс по шкале FRES (Flesch Reading Ease Scale) распределяется таким образом:

100: Очень легко читается. Средняя длина предложения составляет 12 или менее слов. Нет слов из более чем двух слогов.
65 : простой английский язык. Средняя длина предложения составляет от 15 до 20 слов. В среднем слова имеют 2 слога.
30 : Немного трудно читать. Предложения содержат до 25-ти слов. Обычно, двусложные слова.
0 : Очень трудно читать. B среднем предложение имеет 37 слов. Слово имеет в среднем более 2-х слогов

Для английского яз. значение 90-100 соответствует легкому тексту для младших школьников, 60-70 — тексту, который могут читать выпускники школы, тексты с индексом 0-30 предназначены для людей с высшим образованием.

В связи с тем, что в русском языке средняя длина предложения меньше (за счет меньшего использования служебных слов, таких как артикли или вспомогательные глаголы), а слова в среднем длиннее, было предпринято несколько попыток улучшить этот индекс, например, сравнением индексов, полученных для оригинальных английских текстов и их переводов[3]

FRE = 206.835 − (1.3 × ASL) − (60.1 × ASW)

В целом, большинство методов оценки сложности текста на основе индексов удобочитаемости для информационно-аналитических документов на русском языке дают оценки, выходящие как за интерпретируемый диапазон значений, так и за референсные значения. При этом получаемые результаты характеризуются высокой степенью корреляции, так как разработчики используют одну математическую модель линейной регрессии, а также однообразные параметры текста (средняя длина слова, средняя длина предложения). При этом индексы удобочитаемости не адаптированы к тестам для взрослых. У профессионала не должно возникать затруднений с пониманием многосложных слов. В конечном итоге фактором сложности выступает семантика текста и абстрактность его изложения. Индикаторы на основе индексов удобочитаемости недостаточно хорошо интерпретируются, поскольку не могут напрямую быть использованы для прогнозирования времени обработки текста тем или иным человеком.[4]

Примечания[править | править вики-текст]

  1. Edit Central
  2. Rudolf Flesch (1948). A new readability yardstick, Journal of Applied Psychology, 32, С. 221—233
  3. Оборнева И. В. (2005). Автоматизация оценки качества восприятия текста. ВЕСТНИК Московского городского педагогического университета, 2(5) [1]
  4. Мизернов И.Ю., Гращенко Л. А. (2015). Анализ методов оценки сложности текста. Новые информационные технологии в автоматизированных системах, 18, С.572-581 [2]