Генератор текста

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Генера́тор те́кста — компьютерная программа, генерирующая тексты (слэнг генерёнку), корректные с точки зрения большинства языковых норм, но, как правило, лишённые смысла (в связи с чем такие программы иногда называют «генераторами бреда», «генераторами шизофазии»).

Иногда у читающего сгенерированный такой программой текст (например, использующей цепь Маркова) может сложиться впечатление, что этот текст является осмысленным, особенно если текст имеет тематику, с которой читающий слабо знаком. Например, некоторые люди не понимают философию и считают любой философский текст, содержащий большое число специфических терминов, бредом, поэтому они не могут определить искусственный характер псевдофилософского текста, написанного программой.

Существуют разные виды генераторов текста, различающиеся своими возможностями (например, некоторые из них могут самостоятельно формировать новые слова).

Типы генераторов[править | править вики-текст]

Генерация текста при полностью случайном выборе слов из словаря не применяется, ввиду мусорного результата. Применяется генерация по вручную написанным фразам-шаблонам, с пометкой макросами на некоторых словах, что они должны автоматически заменяться синонимами. В перспективе развивается более сложная технология, по примеру обучения людей языку в школе, — создаются синтаксические структуры по частям речи и членам в предложениях, слова в словарях категоризируются по семантике, с дальнейшей автоподстановкой их в предложения. Однако, ввиду крайней сложности и объёма работ, вряд ли стоит ожидать появления общающихся роботов и роботов-переводчиков в ближайшие годы.

Где не важен смысл фраз, генерируемый текст составляется из «мешанки» предложений, или их частей, из разных источников. Такой метод используется в чат-ботах и ботах-комментаторах в соцсетях и блогах, где собеседнику копируются фразы записанные из других чатов или сайтов. Более продвинутые чат-боты сортируют фразы по ключевым словам, поэтому их ответ более приближен к теме диалога.

Синонимайзеры и генерация фраз по шаблонам[править | править вики-текст]

Часто генераторы текстов совмещены с программами-синонимайзерами, которые автоматически меняют слова на синонимы, в целях рерайта и придания уникальности фразам. Слова, которые надо заменять в шаблоне на синонимы, заменяются макросами.

Поскольку чем длиннее текст, тем заметнее ошибочные автоматические замены слов, то в текстах где важен смысл синонимайзеры могут применяются только для создания уникальных коротких текстов: заголовков и анкоров с ключевыми словами, комментариев и абзацев. Синонимайзеры более успешно применяются в английском языке, где почти нет склонений, но русский язык имеет сложную морфологию. Так, существуют крупные англоязычные прибыльные сайты, зарабатывающие на размещении рекламы на сайтах, на которых весь контент является автоматическим рерайтом статей из других источников, например Demand Mediaruen и Associated Contentruen[1].

  • Иногда, для синонимизации советуют помещать тексты в программу-переводчик, переводить на иной язык, а затем обратно переводить на русский. Однако, результатом будет бредотекст, ибо переводчики тоже плохо поддерживают склонения слов и их правильный порядок в предложениях.
  • Генерация по заданному шаблону. Популярен SEO anchor generator, он имеет онлайн-версию с несколькими базами, которые нельзя редактировать.
  • Генерация по шаблону с возможностью подключения базы синонимов. Самые известные генераторы: Generating the web, Article clone easy, и генератор входящий в Allsubmitter (программа для раскрутки сайта ссылками).
  • Синонимизация по базе синонимов. Известен синонимайзер SmartRewriter, он позволяет редактировать базы, немного понимает морфологию. Есть синонимайзеры с функцией «разбавления» текста, например, путём добавления прилагательных. Один из таких — Ifritus, расширяющий текст «описательными связями».
  • С учётом морфологии. Такие программы редки ввиду своей сложности. Бывают в виде программ, библиотеки функций, онлайн-сервиса, или онлайн-API для программистов. Например, Морфер способен склонять словосочетания, и phpMorphy, pyMorphy склоняют только отдельные слова.

«Мешанка» текста из разных источников[править | править вики-текст]

Генерёнка используется в доргенах (генераторах дорвеев) при массовом конвейерном создании дорвеев, которые однако, быстро вылетают из поисковой выдачи из-за не качественности этих текстов. Поэтому дорвеи, которые есть в выдаче стараются применять этот метод по минимуму. Случайно генерируются только небольшие фразы в разных элементах страницы, подходящие по смыслу. А абзацы текста парсятся целиком с других сайтов такой же тематики, и, возможно синонимизируются, или используется «мешанка».

  • Обычно в генерёнке используется «мешанка» предложений, взятых из различных текстов. Например, из сборки статей и рассказов в несколько мегабайтов текста. Но если тексты берутся из 1-3 сайтов, простая онлайн-проверка на плагиат это покажет. Вполне возможно, что такую проверку делают и поисковики, имея базу всех текстов когда-либо выложенных в интернет. Или предложения генерёнки составляются из частей предложений нескольких источников, разделяясь запятой. Проверка по Advego показывает, что уникальность такой мешанки выше на 30 % и более.
  • Некоторые доргены собирают тексты парся сниппеты или тематический текст в интернет, таковы Seodor и SED.

Применение[править | править вики-текст]

На данном уровне развития компьютерных технологий в свободном доступе отсутствуют генераторы текста со сравнительно осмысленным текстом. Остальные генераторы с бессмысленным набором слов или с шаблонными фразами имеют узкую сферу применения. Зачастую они используются для развлечения и в экспериментальных целях.

Известны случаи, когда генераторы текстов успешно использовались для выявления низкого качества (а иногда и полного отсутствия) рецензирования в научных журналах. Особенно известна в этом плане программа SCIgen.

Разработка и оптимизация сайтов[править | править вики-текст]

Генераторы текстов широко используются при разработке и поисковой оптимизации сайтов: для генерации названий, описаний, и содержимого целых сайтов в генераторах дорвеев.

Материалы, созданные при помощи генератора текстов и использующиеся в целях поисковой оптимизации, требуют обязательного тщательного отбора по критерию уникальности.[прояснить] Производится данный отбор при помощи специализированного программного обеспечения, имеющего различный алгоритм проверки.[источник не указан 20 дней]

Виртуальные собеседники[править | править вики-текст]

Виртуальные собеседники (чат-боты) — программы, предназначенные имитировать общение в чатах. Они массово применяются для рассылки спама в соцсетях (спам-боты), а также как автоответчики, способные реагировать на множества ключевых слов по разным сценариям.

Поскольку при этом человек не видит своего собеседника, у него может сложиться впечатление, что он переписывается с живым человеком. Тем не менее, ещё ни одному чат-боту не удавалось с успехом пройти тест Тьюринга, а программам, использующим генераторы текста, это сделать ещё сложнее.

Массовая пропаганда и троллинг в соцсетях[править | править вики-текст]

В связи с развитием интернет-пропаганды и «кибер-войн» в соцсетях применяются боты для массовой имитации общественного мнения. При создании ботов у них автоматически генерируются имена и интернет-адреса, а при их ответах — текст комментариев, обычно провокационного, пропагандистского, или оскорбительного содержания.

Относительно широкую известность в русскоязычном Интернете получил генератор текста Rareguest, оформленный в виде php-скрипта. Некоторое время он использовался в рамках сатирического интернет-проекта «Гавгав-центр», а затем получил распространение в качестве робота для живых журналов, блогов и т. д. Вот примеры последовательной генерации однотипных сообщений данным роботом, мимикрирующим под шаблонно мыслящего автора ЖЖ[источник не указан 2550 дней]:

Все ваши посты — типичное клише лживой инсинуации, которая стремится дискредитировать и осмеять всякого, кто начинает прозревать и открыто говорить о преступлениях преступного режима. Колет глаза держимордам кровавого кремлёвского упыря правда об их бесчеловечии и о фашисткой сути кровавого кремлёвского режима! Интересной особенностью данного форума является то, что путинисты в основном занимаются флудом или обсуждением личностей, а топиков по существу проблем России, вроде этого, боятся как черт ладана. Во врунете достаточно простора, где НКВД-фашисты, вроде вас, могут, не отягощаясь правдой и анализом сталино-путинизма, проводить своё время. Потому и считаю я вас, путинистов, моральными выродками. Ведь подобного рода «участники дискуссии» не появляются на подконтрольных кремлю и ястржембскому «чеченских» сайтах врунета. Пути-Пут и его кровожадные подёнщики ответят за всё.

На этих примерах видно, что даже знакомый с обсуждаемой проблематикой читатель может принять сообщения робота за сообщения реального живого человека, пусть и несколько экзальтированного. Выдает робота в этих сообщениях только типовая структура построения предложений и их комбинирования.

Примечания[править | править вики-текст]

Ссылки[править | править вики-текст]