Триграмма (анализ текста)

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Триграммы являются частным случаем n-грамм, где n равно 3. Они часто используются в обработке естественного языка для проведения статистического анализа текстов и в криптографии для контроля и использования шифров и кодов.

Частотность[править | править код]

Контекст очень важен, варьирование рангов и процентов анализа легко выводится на основе разных размеров выборки, разных авторов; или разных типов документов: поэзия, научная фантастика, технологическая документация; и уровней написания: рассказы для детей против взрослых, военные приказы и рецепты. [1][2]

Типичный криптоаналитический частотный анализ показывает, что 16 наиболее распространенными триграммами уровня символов в английском языке являются:

Место[2] Триграмма Частотность[3]
(Разные источники)
1 the 1.81 %
2 and 0.73 %
3 tha 0.33 %
4 ent 0.42 %
5 ing 0.72 %
6 ion 0.42 %
7 tio 0.31 %
8 for 0.34 %
9 nde
10 has
11 nce
12 edt
13 tis
14 oft 0.22 %
15 sth 0.21 %
16 men

Поскольку в шифрованных сообщениях, отправляемых по телеграфу, часто опускаются знаки препинания и пробелы, криптографический частотный анализ таких сообщений включает триграммы, которые пересекают границы слов. Это приводит к тому, что такие триграммы, как «edt», встречаются часто, хотя они могут никогда не встречаться ни в одном слове этих сообщений.[4]

Примеры[править | править код]

Предложение «The quick red fox jumps over the lazy brown dog» имеет следующие триграммы на уровне слов:

the quick red
quick red fox
red fox jumps
fox jumps over
jumps over the
over the lazy
the lazy brown
lazy brown dog

А триграмма уровня слова «the quick red» имеет следующие триграммы уровня символов (где знак подчеркивания «_» обозначает пробел):

the
he_
e_q
_qu
qui
uic
ick
ck_
k_r
_re
red

Примечания[править | править код]

  1. Linton, Tom Relative Frequencies of Letters in General English Plain text. Central College (2001). Архивировано 22 января 2007 года.
  2. 1 2 Lewand, Robert. [[1] в «Книгах Google» Cryptological Mathematics]. — The Mathematical Association of America, 2000. — P. 37. — ISBN 978-0-88385-719-9.
  3. English Letter Frequencies. Practical Cryptography.
  4. Voice Search SEO. Fuelonline.