Признак (обучение машин)

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

В машинном обучении и распознавании образов признак — это индивидуальное измеримое свойство или характеристика наблюдаемого явления[1]. Выбор информативных, отличительных и независимых признаков является критическим шагом для эффективных алгоритмов в распознавании образов, классификации и регрессии. Признаки обычно являются числовыми, но структурные признаки, такие как строки и графы, используются в синтаксическом распознавании образов[en]. Понятие «признака» связано с объясняющими переменными, используемыми в статистических техниках, таких как линейная регрессия.

Классификация[править | править код]

Множество числовых признаков удобно описать вектором признаков. Пример достижения классификации по двум признакам из вектора признаков (связанных с перцептроном) состоит из вычисления скалярного произведения вектора признаков и вектора весов, сравнения результата с пороговым значением и решения, к какому классу принадлежит объект на основе этого сравнения.

Алгоритмы классификации, опирающиеся на вектора признаков, включают классификацию ближайших соседей, нейронные сети и статистические техники, такие как байесовский подход.

Примеры[править | править код]

В распознавании знаков признаки могут включать гистограммы, включающие число чёрных точек вдоль горизонтальных и вертикальных направлений, число внутренних пустот, выделение штрихов и многие другие.

В распознавании речи признаки для распознавания фонем могут включать коэффициент шума, длину звуков, относительную громкость, соответствие фильтрам и многое другое.

В алгоритмах выделения спама признаки могут включать присутствие или отсутствие некоторых заголовков email, структуру email, язык, частоту определённых терминов, грамматическую правильность текста.

В компьютерном зрении существует большое число возможных признаков[en], таких как рёбра и объекты.

Расширения[править | править код]

В распознавании образов и обучении машин вектор признаков является n-мерным вектором числовых признаков, который представляет некоторый объект. Многие алгоритмы в обучении машин требуют численное представление объектов, поскольку такие представления способствуют обработке и статистическому анализу. При работе с изображениями признак может соответствовать растровым точкам (пикселям) изображения, в то время как признаки для текста могут соответствовать частоте использования терминов в тексте. Вектора признаков эквивалентны векторам объясняющих переменных, используемых в статистических процедурах, таких как линейная регрессия. Вектора признаков часто комбинируются с весами, используя скалярное произведение для построения функции линейного предиктора[en], которая используется для определения оценки для предсказания.

Векторное пространство, ассоциированное с этими векторами, часто называется пространством признаков. Для сокращения размерности пространства признаков может быть использовано несколько методов снижения размерности.

Признаки более высокого уровня можно получить из уже известных признаков и они могут быть добавлены к вектору признаков. Например, для изучения болезней полезен признак «возраст», который можно определить как возраст = «год смерти» минус «год рождения». Об этом процессе говорят как о построении признака[2][3]. Построение признака — это приложение множества операторов построения к множеству существующих признаков, приводящее к построению новых признаков. Примеры таких операторов построения включают проверку на равенство {=, ≠}, арифметические операторы {+,−,×, /}, операторы для массивов {max(S), min(S), average(S)}, а также другие более сложные операторы, например, count(S,C)[4], который подсчитывает число признаков в векторе признаков S, удовлетворяющих некоторому условию C, или, например, расстояния до другого класса распознавания, обобщённого некоторым устройством. Построение признака считается мощным средством для как увеличения точности, так и улучшения понимания структуры, особенно в задачах высокой размерности[5]. Приложения включают изучение болезней и распознавание эмоций[en] при разговоре[6].

Отбор и выделение[править | править код]

Начальное множество сырых признаков может быть избыточным и слишком большим для обработки. Таким образом, предварительный шаг во многих приложениях обучения машин и распознавания образов состоит из отбора подмножества признаков или построения нового сокращённого множества признаков для обеспечения обучения улучшения общности и интерпретируемости.

Выделение или отбор признаков является комбинаций искусства и науки. Системы, позволяющие сделать это, известны как системы конструирования признаков. Для выделения и отбора признаков требуется проведение экспериментов со многими возможностями, а также нужно уметь комбинировать автоматизированные техники с интуицией и обладать знаниями узкого специалиста[en] в этой области. Автоматизация этого процесса называется обучением признакам, где машина не только использует признаки для собственного обучения, но и обучается новым признакам.

См. также[править | править код]

Примечания[править | править код]

Литература[править | править код]

  • Christopher Bishop. Pattern recognition and machine learning. — Berlin: Springer, 2006. — ISBN 0-387-31073-8.
  • Liu H., Motoda H. Feature Selection for Knowledge Discovery and Data Mining. — Norwell, MA, USA: Kluwer Academic Publishers, 1998.
  • Piramuthu S., Sikora R. T. Iterative feature construction for improving inductive learning algorithms. In Journal of Expert Systems with Applications. — 2009. — Март (т. 36, вып. 2).
  • Bloedorn E., Michalski R. Data-driven constructive induction: a methodology and its applications // IEEE Intelligent Systems, Special issue on Feature Transformation and Subset Selection. — 1998.
  • Breiman L., Friedman T., Olshen R., Stone C. Classification and regression trees. — Wadsworth, 1984.
  • Sidorova J., Badia T. Syntactic learning for ESEDA.1, tool for enhanced speech emotion detection and analysis. // Internet Technology and Secured Transactions Conference 2009 (ICITST-2009) London November 9–12. IEEE. — 2009.

Дополнительная литература[править | править код]