Гамма-классификатор дискретных случайных величин

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

1.    Задача распознавания авторства произведения.

Пусть  - список авторов   и  – некоторое множество принадлежащих им текстов . Предположим, что разделено на две части, , из которых  предназначается для разработки правила соответствия (отображения) “текст автор” (задача 1 обучения математической модели), а – для проверки эффективности  разработанного правила (задача 2  тестирования математической модели).

Существование взаимосвязи между текстом и его автором составляет основу современной стилеметрии. С позиции статистики  авторский стиль – это вероятностное явление. По существу любые элементы или же признаки, обнаруживаемые в текстах появляются с какими-то частотами, которые не подконтрольны автору и тем не менее несут информацию, характеризующую своего создателя.

       В задаче распознавания автора текста приходится иметь дело с парой математических моделей: количественным описанием (образом) текста и моделью принятия решения (классификацией). И тех и других моделей – необозримые множества. В настоящее время описаны разнообразные пары моделей, использованные для исследовательских целей. Обилие возможных комбинаций элементов пары является причиной, по которой исследователи в настоящее время не затрагивают вопросы построения общей теории, ограничиваясь подбором высоко эффективных пар для решений конкретных задач распознавания авторства.

Обсуждаемая задача является частным случаем общей проблемы построения систем распознавания образов, состоящей в разработке оптимальных решающих процедур для классификации образов и идентификации объектов, как единичных реализаций образов. Поэтому все достижения в развитии распознающих систем находят применение  в решении задач идентификации авторства.

2.    Цифровой портрет печатного текста.

Введем ряд определений, которыми будем пользоваться в дальнейшем.

Определение 1. Алфавит –  упорядоченное множество элементов текста.

Примерами элементов текста являются буквы естественного языка, символы и знаки препинания, буквенные n-граммы и слоги, леммы и морфемы, корни и основы слов, словоформы, тематические ключевые слова и ключевые n-граммы, длины слов и предложений и многое другое. Совокупность элементов, упорядоченных каким-либо образом, образует алфавит.

Определение 2. Цифровым портретом (ЦП) текста  будем называть  распределение частотности элементов алфавита.

Следовательно, цифровой портрет текста – это пара, составленная, с одной стороны, из упорядоченных элементов текста и, с другой стороны, из информации об относительной частоте встречаемости в тексте самих элементов. Таковыми примерами являются распределения частотностей упорядоченных символьных, буквенных и словоформных n-грамм, длин слов и предложений и т.д. ЦП текста записывается в табличном виде:

                              (1)

в котором первая строка – порядковые номера (индексы) алфавитных элементов (m – число элементов), а  вторая   ̶  их относительные частоты встречаемости в , причём

       Цифровой портрет представляется также в виде дискретной функции

                                   (2)

3. Расстояния между цифровыми портретами текстов

Пусть   – произвольная пара текстов, характеризуемых на основе единого алфавита, и

                                  (3)

соответствующие им ЦП, представленные дискретными функциями,   и

        Определение 3.  Расстоянием между текстами  и   называется положительное число  , определяемое формулой

                    (4)

то есть расстояние между двумя текстами вычисляется как максимальное расстояние по оси ординат между их дискретными функциями  и  , помноженное на весовой коэффициент . Отметим также, что равенство означает совпадение цифровых портретов  и  , но не самих текстов.

        4. Гипотеза  “однородности” особенностей авторского стиля

        Обнаруживаемые  в творчестве авторов “однородности” тех или иных особенностей стилей проявляются в их произведениях, словоупотреблениях, синтаксисе, композиции, интонациях, ритмах и многом другом.  Не уточняя этого понятия, ограничимся тем, что сопоставим ему синонимы “похожий”, “одинаковый”, “сходный”, “однотипный”, “родственный” и т.п. Все они привязываются к понятию авторского стиля, который индивидуализирует творчество автора на фоне его коллег из писательского сообщества.

        Гипотеза , связываемая с содержательным смыслом изучаемого вопроса, используется для решения задачи 1 путем подбора и последующей настройки математической модели. Наиболее естественной представляется следующая  

        ГИПОТЕЗА . Произведения одного автора  - “однородные”, а разных авторов  - “неоднородные”.

        Произведение – широкое понятие. Оно характеризуются набором признаков. Но тогда свойство “однородности” произведений можно интерпретировать как “однородность” отдельных признаков или же их совокупностей. Следовательно, обсуждаемая гипотеза может быть высказана в следующем видоизменённом виде.

        ГИПОТЕЗА . Конкретные признаки “однородны”      во всех произведениях одного и того же автора и “не однородны” в произведениях разных авторов.

        С такой точки зрения становится понятным, почему исследователи, занятые распознаванием авторства текста, имеют дело с его отдельными характеристиками, а не с текстами в целом. Так, например, распределения буквенных униграмм, биграмм, тиграмм (с пробелом и без пробела), слогов, морфем, словоформных n-граммы, длин  предложений и абзацев и многие другие признаки также успешно распознают авторов текстовых фрагментов.

        В литературе можно указать много примеров нарушения этой гипотезы, однако она принимается к исполнению, как первое приближение к реальной ситуации, позволяющей преобразовать гипотезу в математическую модель.

        5. Математическая модель -гипотезы.

        Пусть    - некоторое положительное число.

        Определение 4. Тексты     называются   - однородными, если 

                                         (5)

и  - неоднородными, если

                                        (6)

        Неравенства (5) и (6) являются математической интерпретацией (моделью) гипотезы .

  Определение 5. -классификатор – алгоритм, зависящий от одного вещественного параметра и сопоставляющий тексту из  его автора из списка  .

        Очевидно, что от значения   зависит однородность или неоднородность любой пары текстов, следовательно, и степень выполнимости гипотезы. Однородность всех текстов одного автора в рамках математической модели означает справедливость неравенства  (5), а неоднородность любых двух текстов разных авторов – справедливость неравенства (6). Гипотеза  может нарушаться для каких-то пар текстов одного и того же автора в случае, когда вместо неравенства (5) имеет место неравенство (6), а также в случае, когда какие-то два текста двух различных авторов удовлетворяют неравенству (5) вместо того, чтобы выполнялось неравенство (6).

Пусть  – суммарное количество нарушений гипотезы  одновременно в двух случаях: невыполнение неравенства “однородности” в случае двух текстов, принадлежащих одному автору, и невыполнение неравенства “неоднородности” в случае двух текстов, принадлежащих разным авторам. Тогда для фиксированного  показатель выполнения гипотезы будет определяться величиной  , задаваемой  формулой

                                     (7)

где   - число взаимных расстояний между всеми парами текстов из подколекции  Из этой формулы следует, что   может принимать значения из отрезка [0, 1], причём , если ,  и  , если . В первом случае гипотезу  следует признать непригодной, а во втором – полностью согласованной с обучающей выборкой.

        В связи с тем, что эффективность -классификатора зависит от значения параметра  , представляет интерес найти такое его значение, при котором  принимает максимальное значение. Именно в этом и заключается суть настройки -классификатора на данных обучающей выборки. Если такая настройка  будет приемлемой, то можно говорить о решении задачи 1 обучения -классификатора.

        6. Множество текстов , предназначенное для настройки -классификатора, предполагается разделенным на  n  непересекающихся подмножеств , состоящих из текстов, принадлежащих одному и тому же автору  .

       Для настройки -классификатора требуется знать:

– суммарное количество текстов множества ,

– общее число  пар текстов на  ,

– суммарное число всех пар авторских текстов (принадлежащих одним и тем же авторам).

– число пар между текстами различных авторов.

        7. Алгоритм настройки -классификатора. Предположим, что обучающая выборка    со всеми текстами, привязанными к  своим авторам, задана и необходимые величины и  либо известны заранее, либо уже вычислены.

        Алгоритм включает в себя следующие основные процедуры.

        1. По цифровым портретам  (1) или (2) всех текстов обучающей выборки объёма Q с помощью формул (2)  и (4)  подсчитать  расстояний между её текстами.

        2. Полученный набор расстояний разделить на два множества = {}  и  = {}, в которых , , и  , , являются упорядоченными по возрастанию расстояниями между парами текстов, принадлежащих в первом случае подмножествам , а во втором случае – разным подмножествам и , причём .

        3. Подсчитать   и    – частотности чисел   и . Очевидно, что

     и   .

        4. Сформировать множество  ,    () , элементы которого  пронумерованы в порядке возрастания их  значений, . Очевидно, что  в связи с принятыми обозначениями  есть либо число  с частотой , либо число  с частотой  , либо число  , из которых  с частотой  , а  с частотой  .

        Числа , , разделяют числовую полуось  на интервал и  полуинтервалов  и . Функция , определенная на вещественной полуоси , принимает целочисленные постоянные значения в интервале и на полуинтервалах  и

        Эти значения таковы:

 при

·   при     причём   

где

   при     причём  ,  

где

и  ;

и, наконец,  на полуинтервале

        5. Вычислить значения по формулам предыдущего пункта и выделить минимальное из них.

        Пусть это будет  где  и   В таком случае эффективность кластеризатора будет характеризоваться величиной

а область оптимального значения  определяться из условия

        Вопрос о приемлемости полученного решения зависит от величины  Если эта величина оказывается в определенном смысле близкой к единице, то можно признать, что  предложенная математическая модель удачно настроена на данных обучающей выборки и тем самым откалиброванный кластеризатор можно использовать в качестве классификатора, подготовленного к выполнению своих функций (в частности для тестирования математической модели, то есть задачи 2).  

        8. Пояснения к описанию алгоритма. Как  сказано ранее, обучение математической модели распознаванию авторства текста эквивалентно настройке  -классификатора на данных обучающей выборки. Настройка производится за счет выбора оптимального значения , обеспечивающего достижение максимально возможного уровня выполнения гипотезы . Соответствующим показателем этого уровня является величина , вычисляемая по формуле (7). Эта величина, в свою очередь, связана со значением  – суммарным числом случаев нарушений гипотезы который складывается из нарушений условий однородности пары текстов, принадлежащих одному автору, и нарушений условий неоднородности пары текстов, принадлежащих двум разным авторам.

        Так как показатель  зависит от , то было бы желательно иметь явный вид искомой зависимости. Однако, такой зависимости нет, и приводимый в п. 7 алгоритм является, по существу, набором процедур последовательного вычисления значений функции

        Предварительный анализ свойств этой функции подсказывает, что она определена для значений  на полуоси и является кусочно-гладкой с разрывами в точках  , см. п.4 алгоритма. Указанные значения определяются по данным обучающей выборки, более точно,  совокупностью  расстояний между текстами множества

        В п.2 совокупность   расстояний разделяется на две части. В одной части с числом элементов собираются все расстояния между собственными текстами самих авторов, которые должны быть однородными в согласии с гипотезой   В другой части с числом элементов – все расстояния  между текстами различных авторов, которые должны быть неоднородными в согласии с той же гипотезой . Полученные наборы расстояний обозначаются через = {}  и  = {}, в которых , , и  , , являются упорядоченными по возрастанию расстояниями между парами текстов, принадлежащих в первом случае подмножествам , а во втором случае – разным подмножествам.

        В п.4 формируется множество ,    (), элементы которого нумеруются в порядке возрастания их  значений.  Очевидно, что значение  есть либо число  с частотой , либо число  с частотой  , либо число  , из которых  с частотой  , а  с частотой  .

       Числа , , разделяют числовую полуось  на интервал и  полуинтервалов  и . Функция  принимает целочисленные постоянные значения в интервале  и на  полуинтервалах    и  Скачки значений функции  происходят в точках и, как устанавливается в п.4, имеем

Остается определить минимальное значение   и далее поступать так, как указано в п.5 алгоритма.

        9. Замечание. Обратим внимание на то, что гипотезы  и настроенные на идентификацию авторства и особенности авторского стиля, могут быть переориентированы также и на другие цели.

К примеру, если различать произведения по различным тематикам, то - гипотезу для настройки -классификатора естественно формулировать в следующем виде: любые произведения по одной тематике“однородны”, а по разным – “не однородны”. И опять таки неравенства (5) и (6) можно рассматривать в качестве математической интерпретации (модели) - гипотезы.

Другой пример – распознавание языков произведений. В этом случае - гипотеза формулируется в слегка видоизмененном виде: любые произведения, написанные на одном языке, “однородны”, а на разных – “не однородны”. И опять неравенства (5) и (6) выступают в качестве математической интерпретации  - гипотезы.

Важно отметить, что плодотворность гипотез зависит не только от -классификатора, но также и от тщательно подобранного цифрового портрета объекта исследования.


ЛИТЕРАТУРА

З.Д. Усманов, А.А. Косимов. О распознавании авторства таджикского текста. Доклады Академии наук Республики Таджикистан, 2016, т.59, № 3-4, с. 114-119.

З.Д. Усманов. Классификатор дискретных случайных величин. Доклады Академии наук Республики Таджикистан, 2017, т.60, № 7-8, с. 291-300.

З.Д. Усманов. Алгоритм настройки кластеризатора дискретных случайных величин. Доклады Академии наук Республики Таджикистан, 2017, т.60, № 9, с. 392-397.

З.Д. Усманов. N-граммы в распознавании однородных текстов. Материалы 20 научно-практического семинара "Новые информационные технологии в автоматизированных системах", Москва 2017, № 20, с. 52-54.

А.А. Косимов. Оценка эффективности использования униграмм при идентификации текста. Доклады Академии наук Республики Таджикистан, 2017, т.60, № 3-4, с. 132-137.

А.А. Косимов. Оценка эффективности использования биграмм при идентификации текста. Доклады Академии наук Республики Таджикистан, 2017, т.60, № 5-6, с. 224-229.

А.А. Косимов. Оценка эффективности использования триграмм при идентификации текста. Известия Академии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук, 2017, № 1 (166), с. 51-57.

А.А. Косимов. О минимальном объёме текста, необходимого для распознавания его автора. Доклады Академии наук Республики Таджикистан, 2017, т.60, № 9, с. 398-401.

А.А. Косимов. О минимальном числе высокоточных n-грамм, необходимых для распознавания автора текста. Российско-китайский научный журнал «Содружество», Ежемесячный научный журнал, научно-практической конференции, 2017, часть 1, № 17, с. 58-59.

З.Д. Усманов, А.А. Косимов. О метризации произведений художественной литературы. Материалы 21 научно-практического семинара "Новые информационные технологии в автоматизированных системах", Москва 2018, № 21, с.183-186.

З.Д. Усманов, А.А. Косимов. О применимости -классификатора к распознаванию авторства и тематики художественных произведений. Материалы 22 научно-практического семинара "Новые информационные технологии в автоматизированных системах", Москва 2019, № 22, с. 174-178.

З.Д. Усманов, А.А. Косимов. К вопросу об автоматическом распознавании авторства и стилей произведений таджикско-персидской художественной литературы. Доклады Академии наук Республики Таджикистан, 2020, т.63, № 1-2, с. 49-54.

З.Д. Усманов, А.А. Косимов. О влиянии цифрового портрета текста на распознавание автора произведения. Известия Академии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук, 2020.