Выделение признаков
Выделение признаков — это разновидность абстрагирования, процесс снижения размерности, в котором исходный набор исходных переменных сокращается до более управляемых групп (признаков) для дальнейшей обработки, оставаясь при этом достаточным набором для точного и полного описания исходного набора данных[1]. Выделение признаков используется в машинном обучении, распознавании образов и при обработке изображений. Выделение признаков начинает с исходного набора данных, выводит вторичные значения (признаки), для которых предполагается, что они должны быть информативными и не быть избыточными, что способствует последующему процессу машинного обучения и обобщению шагов, а в некоторых случаях ведёт и к лучшей человеческой интерпретацией данных.
Когда входные данные алгоритма слишком большие для обработки и есть подозрение, что данные избыточные (например, измерения проведены как в футах, так и в метрах, или повторяемость изображений представлена пикселами), то они могут быть преобразованы в сокращённый набор признаков (называемый вектором признаков). Определение подмножества начальных признаков называется отбором признаков[2]. Отобранные признаки проверяются на содержание необходимой информации во входных данных, так что желаемая задача может быть выполнена с помощью этого сокращённого набора вместо исходных полных данных.
Общий подход
[править | править код]Выделение признаков вовлекает сокращение числа ресурсов, необходимых для описания большого набора данных. Когда осуществляется анализ сложных данных, одна из главных проблем вызывается числом вовлекаемых переменных. Анализ с большим числом переменных в общем случае требует большой памяти и вычислительной мощности, а также это может вызвать для алгоритмов задачи классификации переподгонку относительно тренировочной выборки, что приводит в общем случае к плохим результатам для новых образцов. Выделение признаков является основным термином для методов построения комбинаций переменных, чтобы обойти эти проблемы, тем не менее описывая данные с достаточной точностью. Многие практики машинного обучения верят, что должным образом оптимизированное выделение признаков является ключом для построения эффективной модели[3].
Результаты могут быть улучшены с использованием построенного набора зависящих от приложения признаков, обычно построенных экспертами. Один из таких процессов называется конструированием признаков. Альтернативно, используются техники общего снижения размерности, такие как:
- Анализ независимых компонент
- Isomap[англ.]
- Ядерный метод главных компонент[англ.]
- Латентно-семантический анализ
- Регрессия частных наименьших квадратов[англ.]
- Метод главных компонент
- Снижение размерности многофакторного пространства[англ.]
- Нелинейное снижение размерности[англ.]
- Полилинейный метод главных компонент[англ.]
- Полилинейное обучение подпространств[англ.]
- Полуопределённое вложение[англ.]
- Автокодировщик
Обработка изображений
[править | править код]Одна из очень важных областей приложения выделения признаков — обработка изображений, в которой используются алгоритмы для обнаружения и изоляции различных желательных порций или фигур (признаков) цифрового изображения или видеопотока. Одна из важных областей приложения методов — оптическое распознавание символов.
Низкоуровневое
[править | править код]- Выделение границ
- Обнаружение углов[англ.]
- Обнаружение пятен[англ.]
- Обнаружение хребтов[англ.]
- Преобразование признаков, инвариантное к масштабу[англ.]
Кривизна
[править | править код]- Направление рёбер, изменение интенсивности, автокорреляция.
Движущиеся изображения
[править | править код]- Обнаружение движения[англ.]. Зональный и дифференциальный подходы. Оптический поток.
Методы, основанные на форме
[править | править код]- Пороговая фильтрация[англ.]
- Выделение объектов[англ.]
- Сравнение с шаблоном[англ.]
- Алгоритм для поиска особых точек и их сравнения SIFT
- Преобразование Хафа
- Прямые
- Окружности/эллипсы
- Произвольные фигуры (обобщённое преобразование Хафа)
- Работа с любыми параметризуемыми признаками (параметры класса, обнаружение кластеров и т.д..)
Гибкие методы
[править | править код]- Деформируемые, параметризованные фигуры
- Активные контуры (извивающиеся)
Выделение признаков в программном обеспечении
[править | править код]Многие пакеты статистической обработки обеспечивают возможность выделения признаков и сокращения размерности. Общие системы численной обработки, такие как MATLAB, Scilab, NumPy и язык R поддерживают некоторые простые техники выделения признаков (например, метод главных компонент) с помощью встроенных команд. Более специфичные алгоритмы часто доступны как общедоступные скрипты или разработки сторонних фирм. Существуют также пакеты, разработанные для конкретных приложений машинного обучения специально для выделения признаков.[4]
См. также
[править | править код]- Кластерный анализ
- Снижение размерности
- Выявление признаков[англ.]
- Отбор признаков
- Data mining
- Маркировка связных компонент[англ.]
- Сегментация (обработка изображений)
Примечания
[править | править код]- ↑ What is Feature Extraction? deepai.org. Архивировано 2 марта 2021 года.
- ↑ Alpaydin, 2010, с. 110.
- ↑ Reality AI Blog, "Its all about the features", September 2017, https://reality.ai/it-is-all-about-the-features/ Архивная копия от 18 августа 2019 на Wayback Machine
- ↑ см., например, https://reality.ai/ Архивная копия от 25 марта 2021 на Wayback Machine
Литература
[править | править код]- Ethem Alpaydin. Introduction to Machine Learning. — London: The MIT Press, 2010. — ISBN 978-0-262-01243-0.
Для улучшения этой статьи желательно:
|