Энтропия языка

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Энтропия языка — статистическая функция текста на определённом языке либо самого языка, определяющая количество информации на единицу текста.

С математической точки зрения энтропия языка определяется как

где  — сообщение,  — его энтропия,  — длина сообщения.

Согласно Клоду Шеннону и Томасу Каверу (англ. Thomas Cover), для английского языка эта величина составляет от 1,3 до 2,3 бита на букву.

Литература[править | править код]

  • Шнайер Б. Глава 11. Математические основы. Энтропия языка. // Прикладная криптография. Протоколы, алгоритмы, исходные тексты на языке Си = Applied Cryptography. Protocols, Algorithms and Source Code in C. — М.: Триумф, 2002. — С. 269. — 816 с. — 3000 экз. — ISBN 5-89392-055-4.
  • C. E. Shannon. Prediction and entropy of printed English (англ.) // Bell Systems Technical Journal. — 1951. — Vol. 30. — P. 50—64. Архивировано 5 февраля 2007 года.
  • Cover, T., King, R. A convergent gambling estimate of the entropy of English // Information Theory, IEEE Transactions on. — 1978. — Т. 24, вып. 4. — С. 413 - 421. — ISSN 0018-9448.