Обучение с частичным привлечением учителя: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
Содержимое удалено Содержимое добавлено
Создано переводом страницы «Напівавтоматичне навчання»
(нет различий)

Версия от 13:33, 10 октября 2016

Полуавтоматическое обучения или частичное обучение (англ. Semi-supervised learning) – способ машинного обучения, разновидность обучения с учителем, которое также использует немаркированные данные для тренировки — обычно небольшое количество помаркованих данных и большое количество немаркированных данных. Полуавтоматическое обучение занимает промежуточную позицию между обучением без учителя (без привлечения каких-либо помаркованих данных для тренировки) и обучением с учителем (с привлечением лишь помаркованих данных). Многие исследователи машинного обучения обнаружили, что немаркированные данные, при использовании в сочетании с небольшим количеством помаркованих данных, могут значительно улучшить точность обучения. Задание помаркованих данных для задачи обучения часто требует квалифицированного человека (например, для транскрибирования аудио файла) или физического эксперимента (например, для определения 3D структуры белка или выявления наличия нефти в определенном регионе). Поэтому затраты на маркировку данных могут сделать процесс обучения с использованием лишь помаркованих данных невыполнимым, в то время как процесс задания немаркированных данных не является очень затратным. В таких ситуациях, полуавтоматическое обучения может иметь большое практическое значение. Такое обучение также представляет интерес в сфере машинного обучения и как модель для человеческого обучения.

Задача обучения

Как и в рамках обучения с учителем, нам дается множество независимых одинаково распределенных примеров с соответствующими пометками . Кроме того, нам дано непомаркованих примеров . Цель полуавтоматической обучения заключается в том, чтобы использовать эту комбинированную информацию для достижения лучших результатов производительности классификации, которую можно получить или путем отбрасывания немаркированных данных и использование обучения с учителем, или путем отбрасывания меток и использование обучения без учителя.

Полуавтоматическое обучения может принадлежать к трансдуктивного обучения[en] или индуктивного обучения. Целью трансдуктивнго обучения является выведение правильных меток только для немаркированных данных . Целью индукции является выведение правильного отображения с в .

Мы можем представлять задачу обучения как экзамен, а промаркированы данные — как несколько примеров, которые учитель решил в классе. Учитель также предоставляет набор нерешенных задач. В постановке трансдуктивного обучения, эти нерешенные задачи является экзаменом, который забирают домой, и вы хотите хорошо его составить в целом. В постановке индуктивного обучения, эти практические задачи являются подобными тем, с которыми вы столкнетесь на экзамене в классе. Необязательно (и, согласно принципу Вапніка[en], неблагоразумно) проводить трансдуктивне обучения путем логического вывода правила классификации для всех входных данных. Однако, на практике, алгоритмы, формально предназначенные для трансдукции или индукции, часто используются как взаємнозамінні.

Предположения, которые используются в полуавтоматическом обучении.

Для того, чтобы использовать немаркированные данные, нужно присвоить некоторую структуру для основного распределения данных. Алгоритмы полуавтоматического обучения используют по крайней мере одно из таких предположений. [1]

Предположение плавности

Точки, которые лежат близко друг от друга промаркированы одинаково с большей вероятностью. Такое же предположение в основном используется и в обучении с учителем и дает преимущество в использовании геометрически простых решений. В случае полуавтоматического обучения, предположение плавности дополнительно дает преимущество для разграничения в регионах с низкой плотностью, где меньше точек, которые расположены близко друг от друга, но разных классов.

Предположение кластеризованості

Данные, как правило, образуют дискретные кластеры, и точки из одного кластера промаркированы одинаково с большей вероятностью (хотя данные, которые используют одинаковые метки, могут быть расположены в нескольких различных кластерах). Это особый случай предположения плавности, который приводит к обучение признаков используя алгоритмы кластеризации.

Предположение многовидності (разнообразия)

Данные собраны примерно в многовиді с гораздо меньшей размерностью, чем входное пространство. В этом случае мы можем попытаться изучить многовид используя как промаркированы так и немаркированные данные для того, чтобы избежать проклятия размерности[en]. Тогда обучение может протекать с использованием расстояний и плотностей, определенных на многовиді.

Предположение многовидності имеет практическое применение, когда многомерные данные генерируются определенным процессом, который трудно непосредственно смоделировать, но который имеет только несколько степеней отклонения. Например, человеческий голос контролируется несколькими голосовыми связками,[2] а изображение различных выражений лица контролируются несколькими мышцами. В этих случаях нам удобнее использовать расстояния и плавности в природном пространстве проблемы генерирования, чем в пространстве всех возможных акустических волн или изображений, соответственно.

История

Эвристический подход самообучения (также известный как самомаркування) исторически самый старый подход к полуавтоматической обучения,[1] с примерами программ, начиная с 1960-х годов (см., например, Scudder (1965)[3]).

Структуру трансдуктивного обучения было официально представлено Владимиром Вапником[en] в 1970-х годах.[4] Заинтересованность в сфере индуктивного обучения с использованием генеративных моделей также появилась в 1970-е годы. Вероятно почти правильное обучение[en] в направлении полуавтоматической изучения гаусової смеси было продемонстрировано Ратсабі и Венкатешем в 1995 году.[5]

Полуавтоматическое обучения в последнее время становится все более популярным и практически актуальным в связи с целым рядом задач, для которых доступно огромное количество немаркированных данных (например, текст вебстраниц, белковые последовательности или изображения. Для просмотра последних работ см. исследовательскую статью, написанную Чжу (2008).[6]

Подходы к напівавтоматичого обучения

Генеративные модели

Генеративные подходы к статистическому изучению в первую очередь стремятся оценить , распределение точек данных для каждого класса. Вероятность такая, что данная точка имеет метку , будет пропорциональной по теореме Баєса. Полуавтоматическое обучения с использованием генеративных подходов можно рассматривать либо как расширение обучения с учителем (классификация и информация о ), или как расширение обучения без учителя (кластеризация и некоторые метки).

Генеративные модели предполагают, что распределения принимают определенную форму , параметризовану вектором . Если эти предположения являются неправильными, то немаркированные данные могут фактически снизить точность решения по сравнению с тем, которое было бы получено только с помаркованих данных.[7] Однако, если эти предположения верны, то немаркированные данные обязательно повысят результативность.[5]

Немаркированные данные распределены согласно смеси индивидуально-классовых разделений. Для того, чтобы распределение смеси из немаркированных данных подлежал изучению, эти данные должны быть узнаваемыми, то есть различные параметры должны приводить к различным итоговых распределений. Распредели гаусової смеси являются узнаваемыми и обычно используются в генеративных моделях.

Параметризованный совместное распределение можно записать в виде с помощью цепного правила. Каждый вектор связан с функцией . Затем параметр выбирается на основе подгонки как к помаркованих там и до немаркированных данных, уравновешенных с помощью :

[8]

Разделение низкой плотности

Это еще один важный класс методов, который пытается разграничить регионы, в которых есть несколько точек с данными (помаркованими или немаркированными). Одним из наиболее часто используемых алгоритмов является трансдуктивний метод опорных векторов, или ТМОВ (который, несмотря на название, может также быть использованным для индуктивного обучения). В то время как метод опорных векторов для обучения с учителем ищут решение краевой с максимальной маржой в помаркованих данных, целью ТМОВ является обозначение немаркированных данных таким образом, что решение краевой имеет максимальную маржу в сравнении со всеми данными. В дополнение к стандартной петли потери для помаркованих данных, функция потерь вводится и для немаркированных данных, обозначив . ТМОВ потом выбирает с гільбертового пространства воспроизводимого ядра путем минимизации регуляризованого эмпирического риска[en]:

Точное решение является неразрешимым через неопуклий член , поэтому исследования сосредоточены на поиске полезных приближений.[8]

Другие подходы, которые осуществляют распределение низкой плотности, включают в себя модели гауссова процесса, упорядочение информации, и минимизацию энтропии (из которых ТМОВ является частным случаем).

Методы на основе графов

Методы на основе графов для полуавтоматической обучения используют данные, представленные при помощи графа, с узлом для каждого помаркованого или немаркированного примера. Граф может быть построен с использованием знаний в предметной области или на основе сходства примеров. Два общие подходы включают соединение каждой точки данных с ее ближайшими соседями или с примерами на расстоянии в пределах . Вес ребра между и устанавливается равной .

В рамках регуляризации многовидності [9] [10] граф служит как представитель многовидності. Выражение добавляется к стандартной задаче регуляризации Тихонова[en] для обеспечения гладкости решения относительно многовидності (в собственном пространстве задачи), а также окружающей входного пространства. Задачей минимизации становится:

[8]

где — это гильбертово пространство воспроизводимого ядра, а — многовид данным. Параметры регуляризации и контролируют гладкость в близлежащих и внутренних пространствах соответственно. Граф используется для аппроксимации внутреннего регуляризуючого члена. Определив матрицу Кирхгофа[en] , где и вектор , получаем:

Эвристические подходы

Некоторые из методов полуавтоматического обучения не приспособлены для использования одновременно как помаркованих так и немаркированных данных, но зато могут привлекать немаркированные данные для обучения с учителем. Например, промаркированы и немаркированные примеры могут информировать о способе представления, метрику, или ядра данных на первом шаге без учителя. Тогда обучение с учителем обрабатывает только промаркированы примеры.

Самообучение — метод-обертка полуавтоматической обучения. [11] Первоначально обучение с учителем обрабатывает только промаркированы данные. Этот классификатор затем применяется к немаркированных данных, чтобы сгенерировать больше помаркованих примеров для обучения с учителем. В общем, можно быть уверенным, что только метки классификатора добавляются на каждом шагу. [12]

Совместное обучение является расширением самообучения, при котором несколько классификаторов прорабатывают разные (в идеале, непересекающиеся) множества признаков и генерируют промаркированы примеры друг для друга. [13]

Полуавтоматическое обучения в человеческом восприятии

Человеческие ответы на формальные задачи полуавтоматического обучения принесли различные выводы относительно степени влияния немаркированных данных (краткое изложение см. [14]). Много задач естественного обучения также можно рассматривать как примеры полуавтоматической обучения. Большинство принципов человеческого обучения предусматривает небольшое количество прямых инструкций (например, маркировка объектов родителями в детстве) в совокупности с огромным количеством немаркированных примеров (например, наблюдения за объектами не называя или не считая их, или по крайней мере не описывая их).

Младенцы чувствительны к структуре немаркированных данных, таких как изображения собак и кошек, или мужских и женских лиц. [15] Недавние исследования обнаружили, что младенцы и дети учитывают не только доступные немаркированные примеры, но и процесс отбора из них, в результате которого возникают промаркированы примеры. [16][17]

См. также

Источники

  1. 1 2 Semi-supervised learning. — Cambridge, Mass. : MIT Press, 2006. — ISBN 978-0-262-03358-9.
  2. Stevens, K.N.(2000), Acoustic Phonetics, MIT Press, ISBN 0-262-69250-3, 978-0-262-69250-2
  3. Scudder, H.J. Probability of Error of Some Adaptive Pattern-Recognition Machines.
  4. Vapnik, V. and Chervonenkis, A. Theory of Pattern Recognition [in Russian].
  5. 1 2 Ratsaby, J. and Venkatesh, S. Learning from a mixture of labeled and unlabeled examples with parametric side information.
  6. Zhu, Xiaojin.
  7. Cozman, F. and Cohen, I. Risks of semi-supervised learning: how unlabeled data can degrade performance of generative classifiers.
  8. 1 2 3 Zhu, Xiaojin.
  9. M. Belkin, P. Niyogi (2004). "Semi-supervised Learning on Riemannian Manifolds". Machine Learning. 56 (Special Issue on Clustering): 209—239. doi:10.1023/b:mach.0000033120.25363.1e.
  10. M. Belkin, P. Niyogi, V. Sindhwani.
  11. Triguero, Isaac (2013-11-26). "Self-labeled techniques for semi-supervised learning: taxonomy, software and empirical study". Knowledge and Information Systems (англ.). 42 (2): 245—284. doi:10.1007/s10115-013-0706-y. ISSN 0219-1377.
  12. Fazakis, Nikos (2015-12-29). "Self-Trained LMT for Semisupervised Learning". Computational Intelligence and Neuroscience (англ.). 2016: 1—13. doi:10.1155/2016/3057481.{{cite journal}}: Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка)
  13. Didaci, Luca. Analysis of Co-training Algorithm with Very Small Training Sets. — Springer Berlin Heidelberg. — P. 719–726. — ISBN 9783642341656.
  14. Introduction to semi-supervised learning.. — Morgan & Claypool, 2009. — ISBN 9781598295481.
  15. Younger B. A., Fearing D. D. (1999). "Parsing Items into Separate Categories: Developmental Change in Infant Categorization". Child Development. 70: 291—303. doi:10.1111/1467-8624.00022.
  16. Xu, F. and Tenenbaum, J. B. (2007). "Sensitivity to sampling in Bayesian word learning. Developmental Science". Developmental Science. 10: 288—297. doi:10.1111/j.1467-7687.2007.00590.x.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)
  17. Gweon, H., Tenenbaum J.B., and Schulz L.E (2010). "Infants consider both the sample and the sampling process in inductive generalization". Proc Natl Acad Sci U S A. 107 (20): 9066—71. doi:10.1073/pnas.1003095107.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)

Ссылка

  • [1] Свободно доступная реализация MATLAB графа на основе алгоритмов полуавтоматического обучения лапласівського метода опорных векторов и лапласівської регуляризации методом наименьших квадратов
  • [2] Модуль КИЛЬ для полуавтоматической обучения.
  • [3] Программное обеспечение для полуавтоматического обучения
  • [4] Алгоритмы полуавтоматического обучения в scikit-learn .