Обучение с частичным привлечением учителя

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Обучение с частичным привлечением учителя или полуавтоматическое обучение или частичное обучение (англ. Semi-supervised learning) — способ машинного обучения, разновидность обучения с учителем, которое также использует неразмеченные данные для тренировки — обычно небольшое количество размеченных данных и большое количество неразмеченных данных.

Полуавтоматическое обучение занимает промежуточную позицию между обучением без учителя (без привлечения каких-либо размеченных данных для тренировки) и обучением с учителем (с привлечением лишь размеченных данных).

Многие исследователи машинного обучения обнаружили, что неразмеченные данные, при использовании в сочетании с небольшим количеством размеченных данных, могут значительно улучшить точность обучения.

Задание размеченных данных для задачи обучения часто требует квалифицированного человека (например, для транскрибирования аудио файла) или физического эксперимента (например, для определения 3D структуры белка или выявления наличия нефти в определенном регионе). Поэтому затраты на разметку данных могут сделать процесс обучения с использованием лишь размеченных данных невыполнимым, в то время как процесс задания неразмеченных данных не является очень затратным. В таких ситуациях, полуавтоматическое обучения может иметь большое практическое значение. Такое обучение также представляет интерес в сфере машинного обучения и как модель для человеческого обучения.

Задача обучения[править | править код]

Как и в рамках обучения с учителем, нам дается множество независимых одинаково распределенных примеров с соответствующими пометками . Кроме того, нам дано неразмеченных примеров . Цель полуавтоматической обучения заключается в том, чтобы использовать эту комбинированную информацию для достижения лучших результатов производительности классификации, которую можно получить или путем отбрасывания неразмеченных данных и использование обучения с учителем, или путем отбрасывания меток и использование обучения без учителя.

Полуавтоматическое обучения может принадлежать к трансдуктивного обучения[en] или индуктивного обучения. Целью трансдуктивнго обучения является выведение правильных меток только для неразмеченных данных . Целью индукции является выведение правильного отображения из в .

Мы можем представлять задачу обучения как экзамен, а размеченные данные — как несколько примеров, которые учитель решил в классе. Учитель также предоставляет набор нерешенных задач. В постановке трансдуктивного обучения, эти нерешенные задачи является экзаменом, который забирают домой, и вы хотите хорошо его составить в целом. В постановке индуктивного обучения, эти практические задачи являются подобными тем, с которыми вы столкнетесь на экзамене в классе. Необязательно (и, согласно принципу Вапника[en], неблагоразумно) проводить трансдуктивне обучения путем логического вывода правила классификации для всех входных данных. Однако, на практике, алгоритмы, формально предназначенные для трансдукции или индукции, часто используются как взаимозаменяемые.

Предположения, которые используются в полуавтоматическом обучении[править | править код]

Для того, чтобы использовать неразмеченные данные, нужно присвоить некоторую структуру для основного распределения данных. Алгоритмы полуавтоматического обучения используют по крайней мере одно из таких предположений.[1]

Предположение плавности[править | править код]

Точки, которые лежат близко друг от друга, размечены одинаково с большей вероятностью. Такое же предположение в основном используется и в обучении с учителем и дает преимущество в использовании геометрически простых решений. В случае полуавтоматического обучения, предположение плавности дополнительно дает преимущество для разграничения в регионах с низкой плотностью, где меньше точек, которые расположены близко друг от друга, но разных классов.

Предположение кластеризованности[править | править код]

Данные, как правило, образуют дискретные кластеры, и точки из одного кластера размечены одинаково с большей вероятностью (хотя данные, которые используют одинаковые метки, могут быть расположены в нескольких различных кластерах). Это особый случай предположения плавности, который приводит к обучение признаков используя алгоритмы кластеризации.

Предположение избыточности данных[править | править код]

Это предположение применимо, когда измерения данных избыточны, то есть генерируются определенным процессом, имеющим только несколько степеней свободы. В этом случае неразмеченные данные позволяют изучить генерирующий процесс и за счёт этого снизить размерность.

Например, человеческий голос контролируется несколькими голосовыми связками,[2] а изображение различных выражений лица контролируются несколькими мышцами. В этих случаях удобнее использовать генерирующее пространство, чем пространство всех возможных акустических волн или изображений, соответственно.

История[править | править код]

Эвристический подход к самообучению является наиболее ранним.[1] Он начал применяться с 1960-х годов (см., например, Scudder 1965)[3]).

Основы трансдуктивного обучения были изложены Владимиром Вапником в 1970-х годах.[4] В 1970-е годы также появился интерес к индуктивному обучению с использованием генеративных моделей. Применение приближенного правильного обучения [en] для полуавтоматического обучения на основе модели гауссовой смеси было продемонстрировано Ратсаби и Венкатешем в 1995 году.[5]

Полуавтоматическое обучения в последнее время становится все более популярным и растет его актуальность в связи с целым рядом задач, для которых доступно огромное количество неразмеченных данных (например, текст веб страниц, последовательности белков или изображения. Обзор последних работ в этой области см. Чжу (2008).[6]

Подходы к полуавтоматическому обучению[править | править код]

Генеративные модели[править | править код]

Генеративные подходы к статистическому изучению в первую очередь стремятся оценить , распределение точек данных для каждого класса. Вероятность такая, что данная точка имеет метку , будет пропорциональной по теореме Байеса. Полуавтоматическое обучения с использованием генеративных подходов можно рассматривать либо как расширение обучения с учителем (классификация и информация о ), или как расширение обучения без учителя (кластеризация и некоторые метки).

Генеративные модели предполагают, что распределения принимают определенную форму , параметризованную вектором . Если эти предположения являются неправильными, то неразмеченные данные могут фактически снизить точность решения по сравнению с тем, которое было бы получено только с размеченных данных.[7] Однако, если эти предположения верны, то неразмеченные данные обязательно повысят результативность.[5]

Неразмеченные данные распределены согласно смеси индивидуально-классовых разделений. Для того, чтобы распределение смеси из неразмеченных данных подлежал изучению, эти данные должны быть узнаваемыми, то есть различные параметры должны приводить к различным итоговых распределений. Распредели гауссовой смеси являются узнаваемыми и обычно используются в генеративных моделях.

Параметризованный совместное распределение можно записать в виде с помощью цепного правила. Каждый вектор связан с функцией . Затем параметр выбирается на основе подгонки как к размеченных там и до неразмеченных данных, уравновешенных с помощью :

[6]

Разделение низкой плотности[править | править код]

Это ещё один важный класс методов, который пытается разграничить регионы, в которых есть несколько точек с данными (размеченными или неразмеченными). Одним из наиболее часто используемых алгоритмов является трансдуктивный метод опорных векторов, или ТМОВ (который, несмотря на название, может также быть использованным для индуктивного обучения). В то время как метод опорных векторов для обучения с учителем ищет решение краевой с максимальной маржой в размеченных данных, целью ТМОВ является обозначение неразмеченных данных таким образом, что решение краевой имеет максимальную маржу в сравнении со всеми данными. В дополнение к стандартной петле потери для размеченных данных, функция потерь вводится и для неразмеченных данных, обозначив . ТМОВ потом выбирает с гильбертова пространства воспроизводимого ядра путем минимизации регуляризованого эмпирического риска[en]:

Точное решение является неразрешимым через неопуклий член , поэтому исследования сосредоточены на поиске полезных приближений.[6]

Другие подходы, которые осуществляют распределение низкой плотности, включают в себя модели гауссова процесса, упорядочение информации, и минимизацию энтропии (из которых ТМОВ является частным случаем).

Методы на основе графов[править | править код]

Методы на основе графов для полуавтоматической обучения используют данные, представленные при помощи графа, с узлом для каждого размеченного или неразмеченного примера. Граф может быть построен с использованием знаний в предметной области или на основе сходства примеров. Два общих подхода включают соединение каждой точки данных с её ближайшими соседями или с примерами на расстоянии в пределах . Вес ребра между и устанавливается равным .

В рамках регуляризации многообразия[8] [9] граф служит как представитель многовидності. Выражение добавляется к стандартной задаче регуляризации Тихонова для обеспечения гладкости решения относительно многовидності (в собственном пространстве задачи), а также окружающей входного пространства. Задачей минимизации становится:

[6]

где  — это гильбертово пространство воспроизводимого ядра, а  — многовид данным. Параметры регуляризации и контролируют гладкость в близлежащих и внутренних пространствах соответственно. Граф используется для аппроксимации внутреннего регуляризующего члена. Определив матрицу Кирхгофа[en] , где и вектор, получаем:

Эвристические подходы[править | править код]

Некоторые из методов полуавтоматического обучения не приспособлены для использования одновременно как размеченных так и неразмеченных данных, но зато могут привлекать неразмеченные данные для обучения с учителем. Например, размеченные и неразмеченные примеры могут информировать о способе представления, метрику, или ядра данных на первом шаге без учителя. Тогда обучение с учителем обрабатывает только размеченные примеры.

Самообучение — метод-обертка полуавтоматического обучения.[10] Первоначально обучение с учителем обрабатывает только размеченные данные. Этот классификатор затем применяется к неразмеченным данным, чтобы сгенерировать больше размеченных примеров для обучения с учителем. В общем, можно быть уверенным, что только метки классификатора добавляются на каждом шагу.[11]

Совместное обучение является расширением самообучения, при котором несколько классификаторов прорабатывают разные (в идеале, непересекающиеся) множества признаков и генерируют размеченные примеры друг для друга.[12]

Полуавтоматическое обучение в человеческом восприятии[править | править код]

Человеческие ответы на формальные задачи полуавтоматического обучения принесли различные выводы относительно степени влияния неразмеченных данных (краткое изложение см.[13]). Много задач естественного обучения также можно рассматривать как примеры полуавтоматического обучения. Большинство принципов человеческого обучения предусматривает небольшое количество прямых инструкций (например, разметка объектов родителями в детстве) в совокупности с огромным количеством неразмеченных примеров (например, наблюдения за объектами не называя или не считая их, или по крайней мере не описывая их).

Младенцы чувствительны к структуре неразмеченных данных, таких как изображения собак и кошек, или мужских и женских лиц.[14] Недавние исследования обнаружили, что младенцы и дети учитывают не только доступные неразмеченные примеры, но и процесс отбора из них, в результате которого возникают размеченные примеры.[15][16]

См. также[править | править код]

Источники[править | править код]

  1. 1 2 Semi-supervised learning. — Cambridge, Mass. : MIT Press, 2006. — ISBN 978-0-262-03358-9.
  2. Stevens, K.N.(2000), Acoustic Phonetics, MIT Press, ISBN 0-262-69250-3, 978-0-262-69250-2
  3. Scudder, H.J. Probability of Error of Some Adaptive Pattern-Recognition Machines.
  4. Вапник, В. Н., Червоненкис, А. Я. Теория распознавания образов. — М.: Наука, 1974. — 416 с.
  5. 1 2 Ratsaby, J. and Venkatesh, S. Learning from a mixture of labeled and unlabeled examples with parametric side information.
  6. 1 2 3 4 Zhu, Xiaojin.
  7. Cozman, F. and Cohen, I. Risks of semi-supervised learning: how unlabeled data can degrade performance of generative classifiers.
  8. M. Belkin, P. Niyogi (2004). “Semi-supervised Learning on Riemannian Manifolds”. Machine Learning. 56 (Special Issue on Clustering): 209—239. DOI:10.1023/b:mach.0000033120.25363.1e.
  9. M. Belkin, P. Niyogi, V. Sindhwani.
  10. Triguero, Isaac (2013-11-26). “Self-labeled techniques for semi-supervised learning: taxonomy, software and empirical study”. Knowledge and Information Systems [англ.]. 42 (2): 245—284. DOI:10.1007/s10115-013-0706-y. ISSN 0219-1377.
  11. Fazakis, Nikos (2015-12-29). “Self-Trained LMT for Semisupervised Learning”. Computational Intelligence and Neuroscience [англ.]. 2016: 1—13. DOI:10.1155/2016/3057481.
  12. Didaci, Luca. Analysis of Co-training Algorithm with Very Small Training Sets. — Springer Berlin Heidelberg. — P. 719–726. — ISBN 9783642341656.
  13. Introduction to semi-supervised learning.. — Morgan & Claypool, 2009. — ISBN 9781598295481.
  14. Younger B. A., Fearing D. D. (1999). “Parsing Items into Separate Categories: Developmental Change in Infant Categorization”. Child Development. 70: 291—303. DOI:10.1111/1467-8624.00022.
  15. Xu, F. and Tenenbaum, J. B. (2007). “Sensitivity to sampling in Bayesian word learning. Developmental Science”. Developmental Science. 10: 288—297. DOI:10.1111/j.1467-7687.2007.00590.x.
  16. Gweon, H., Tenenbaum J.B., and Schulz L.E (2010). “Infants consider both the sample and the sampling process in inductive generalization”. Proc Natl Acad Sci U S A. 107 (20): 9066—71. DOI:10.1073/pnas.1003095107.

Ссылки[править | править код]