Поиск изображений по содержанию

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Поиск изображений по содержанию (англ. Content-based image retrieval (CBIR)) — раздел компьютерного зрения, решающий задачу поиска изображений, которые имеют требуемое содержание, в большом наборе цифровых изображений.

Алгоритм поиска должен анализировать содержание изображения, например, цвет представленных на нём объектов, их форму, текстуру, композицию сцены. При отсутствии возможности проанализировать сцену при поиске рассматриваются метаданные: ключевые слова, метки.

История[править | править вики-текст]

Термин «Content-based image retrieval» впервые был введен в употребление в 1992 году Т. Като при описании экспериментов с автоматическим поиском изображений по критериям присутствующих цветов и геометрических форм. С того момента его применяют как обобщение процесса выборки изображений из базы по любым синтаксическим характеристикам объектов. Используемые алгоритмы, методы и программные инструменты берут начало в областях, связанных с обработкой сигналов, компьютерным зрением и статистикой.

Развитие[править | править вики-текст]

К области поиска изображений по содержательным критериям в настоящее время возрастает интерес, связанный с ограниченностью методов, основанных исключительно на категоризации метаданных, а также растущим потенциалом её применимости. В настоящий момент алгоритмы категоризации и поиска в текстовых данных позволяют довольно эффективно обращаться с описанными изображениями по метаданным, однако такой подход требует ручного описания каждого изображения в базе человеком. Это совершенно непрактично, в особенности в применении к большим базам или изображениям, создаваемым автоматически (например, камерами видеонаблюдения). Плюс ко всему есть далеко не нулевая вероятность упустить одно из целевых изображений поиска из-за многозначности или синонимии.

Потенциальные области применения алгоритмов поиска по содержанию:

  • Поиск изображений в сети Интернет
  • Каталогизация изображений произведений искусства
  • Организация работы с архивами фотографических снимков
  • Организация каталогов розничной продажи товаров
  • Медицинская диагностика заболеваний
  • Предотвращение преступлений и беспорядков
  • Военно-оружейное применение
  • Вопросы контроля за распространением интеллектуальной собственности
  • Получение информации о местоположении удаленных зондов и географическое позиционирование
  • Контроль за содержимым массивов изображений

Программные системы и алгоритмы[править | править вики-текст]

Несмотря на то, что существует множество программных комплексов по поиску изображений в базах данных, проблема поиска на основе пиксельного содержания в большинстве ситуаций пока не имеет реализованного решения. Смотри список поисковых систем по изображениям.

Способы построения запросов[править | править вики-текст]

Различные реализации систем поиска изображений по содержанию работают со следующими типами пользовательских запросов:

Пример результата[править | править вики-текст]

Предполагается, что система производит поиск на основе входного изображения, указываемого пользователем. Алгоритмы, составляющие систему, могут иметь различные способы описания и работы с входным изображением, но все результирующие экземпляры изображений должны иметь общие элементы с входом, указанным пользователем.

Пользователь может подать на вход как существующее изображение, так и грубый набросок требуемого результата (разметку на цветные области или простые геометрические формы).[1]

При данном способе построения запросов не возникает трудностей, связанных с представлением изображения набором слов.

Разрешение семантики запроса[править | править вики-текст]

В идеале система поиска должна уметь обрабатывать запросы пользователя, сформулированные в свободной форме, например «найти фотографии собак» или даже «найти портреты Леонида Ильича Брежнева». Запросы такого типа очень сложны для обработки компьютером, ведь фотографии лабрадора и карликового пуделя сильно различаются, а Леонид Ильич не всегда смотрит в камеру в одинаковой позе. В настоящий момент многие системы используют для классификации характеристики низшего уровня, такие как цвет, текстура и форма объекта, хотя существуют и системы, в основном основанные на дифференциации критериев высокого уровня (см. Теория распознавания образов). Большинство систем не являются широко ориентированными. Например, системы поиска изображений, сгенерированных на компьютере, с успехом обходятся признаками, основанными на совмещении форм и градиентов.

Прочие способы[править | править вики-текст]

Эта категория включает в себя такие формы запросов, как определение категории в предложенной иерархии, запрос в виде части изображения, ожидаемого в качестве результата, расширение запроса дополнительными изображениями, графичный набросок, состоящий из сложных форм, а также комбинацию методов.

Также возможно постепенное уточнение запроса, когда пользователь в процессе работы системы поиска помечает промежуточные результаты как «подходящие» или «неудовлетворительные», и система продолжает работать с уточнённым запросом.

Методы описания содержания[править | править вики-текст]

Здесь представлены наиболее общие методы описания содержания изображений, использующиеся для последующего сравнения их между собой. Все они являются потенциально широко применимыми, то есть не специфическими для какого-либо особенного подкласса систем.

Цвет[править | править вики-текст]

Поиск изображений с помощью сравнения цветовых составляющих производится с помощью построения гистограммы их распределения. В настоящий момент ведутся исследования по построению описания, в котором изображение делится на регионы по сходным цветовым характеристикам, и далее учитывается их взаимное расположение. Описание изображений цветами, которые на них содержатся, является наиболее распространённым, так как оно не зависит от размера или ориентации изображения. Построение гистограмм с последующим их сравнением используется наиболее часто, но не является единственным способом описания цветовых характеристик.

Текстура[править | править вики-текст]

Методы такого описания работают со сравнением текстурных образцов, присутствующих на изображении, и их взаимного расположения. Для определения текстуры используют текстоны, которые объединяют в множества. Они содержат не только информацию, описывающую текстуру, но и её местоположение на описываемом изображении. Текстуру как сущность сложно формализованно описать, и обычно её представляют в виде двухмерного массива изменения яркости. Также в описание иногда включают меру контраста, направленности градиента, регулярности. Существует проблема сравнения ковариации пикселей с целью присваивания текстурам классов, таких как «гладкая» или «грубая».

Форма[править | править вики-текст]

Описание формы предполагает описание геометрической формы отдельных регионов изображения. Для её определения к региону сначала применяют сегментацию или выделение границ. Существуют и другие способы, например фильтрация форм (Tushabe and Wilkinson, 2008). Часто определение формы требует вмешательства человека, так как методы типа сегментации сложно полностью автоматизировать для широкого класса задач.

Применение[править | править вики-текст]

Существуют компании, представляющие программные продукты, в которых алгоритмы поиска изображений по содержанию применяются для фильтрации содержимого веб-страниц и государственного мониторинга сетевого трафика с целью отслеживания изображений порнографического содержания.
Примеры:

  • Обратный поиск изображений TinEye.com
  • Поиск людей по фотографиям PhotoDate.ru

См. также (англ. язык)[править | править вики-текст]

  • Bird, C.L.; P.J. Elliott, Griffiths (1996). «User interfaces for content-based image retrieval».
  • Rui, Yong; Thomas S. Huang, Shih-Fu Chang (1999). «Image Retrieval: Current Techniques, Promising Directions, and Open Issues».
  • Tushabe, F.; M.H.F. Wilkinson (2008). «Content-based Image Retrieval Using Combined 2D Attribute Pattern Spectra». Springer Lecture Notes in Computer Science.

Примечания[править | править вики-текст]

  1. Shapiro Linda Computer Vision. — Upper Saddle River, NJ: Prentice Hall, 2001. — ISBN 0-13-030796-3