ROC-кривая

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
ROC-кривые трёх методов предсказания эпитопов

ROC-кривая (англ. receiver operating characteristic, рабочая характеристика приёмника) — график, позволяющий оценить качество бинарной классификации, отображает соотношение между долей объектов от общего количества носителей признака, верно классифицированных, как несущих признак, (англ. true positive rate, TPR, называемой чувствительностью алгоритма классификации) и долей объектов от общего количества объектов, не несущих признака, ошибочно классифицированных, как несущих признак (англ. false positive rate, FPR, величина 1-FPR называется специфичностью алгоритма классификации) при варьировании порога решающего правила.

Также известна как кривая ошибок. Анализ классификаций с применением ROC-кривых называется ROC-анализом.

Количественную интерпретацию ROC даёт показатель AUC (англ. area under ROC curve, площадь под ROC-кривой) — площадь, ограниченная ROC-кривой и осью доли ложных положительных классификаций. Чем выше показатель AUC, тем качественнее классификатор, при этом значение 0,5 демонстрирует непригодность выбранного метода классификации (соответствует случайному гаданию). Значение менее 0,5 говорит, что классификатор действует с точностью до наоборот: если положительные назвать отрицательными и наоборот, классификатор будет работать лучше.

Основная концепция[править | править вики-текст]

Задача классификации состоит в том, чтобы относить ранее неизвестные сущности к тому или иному классу. Примером такой задачи может быть постановка диагноза по медицинским анализам. В этом случае есть два класса результатов: положительный и отрицательный. Результатом классификации или медицинского диагноза может быть и непрерывное значение. Тогда для различия двух классов необходимо подобрать граничные значения (примером может служить постановка диагноза на основе данных о кровяном давлении).

Рассмотрим бинарную задачу классификации, в которой выходные метки классов могут быть помечены как положительный (positive) и отрицательный (negative). Тогда на выходе классификатора может наблюдаться четыре различных ситуации:

  • Если результат классификации положительный, и истинное значение тоже положительное, то речь идет об истинно-положительном значении (true-positive, TP)
  • Если результат классификации положительный, но истинное значение отрицательное, то речь идет о ложно-положительном значении (false-positive, FP)
  • Если результат классификации отрицательный, и истинное значение тоже отрицательное, то речь идет об истинно-отрицательном значении (true-negative, TN)
  • Если результат классификации отрицательный, но истинное значение положительно, то речь идет о ложно-отрицательном значении (false-negative, FN)

Возвращаясь к примеру с тестом на какое-либо заболевание, предположим, что врач на основе каких-либо медицинских анализов собирается поставить диагноз рака или его отсутствие. Тогда:

  • true-positive, TP — пациент болен раком, диагноз положительный
  • false-positive, FP — пациент здоров, диагноз положительный
  • true-negative, TN — пациент здоров, диагноз отрицательный
  • false-negative, FN — пациент болен раком, диагноз отрицательный

Четыре возможных выхода могут сформулированы и оформлены в виде таблицы сопряженности размера 2×2.

Случай непрерывных случайных величин[править | править вики-текст]

Receiver Operating Characteristic.png

Классификация часто основывается на непрерывных случайных величинах. В этом случае удобно записать вероятность принадлежности к тому или иному классу в виде функции распределения вероятностей, зависящей от некоего порогового (граничного) значения параметра в виде , а вероятность непринадлежности как . Тогда количество ложно-положительных (false-positive rate,FPR) решений можно выразить в виде . В то же время количество истинно-положительных решений (true-positive rate, TPR) можно выразить в виде . При построении ROC-кривой по оси откладывают и по оси  — , полученных при разных значениях параметра .

Например, представим, что уровни какого-нибудь белка в крови распределены нормально с центрами, равными 1 г/дЛ и 2 г/дЛ у здоровых и больных людей соответственно. Медицинский тест может давать показатель уровня какого-либо белка в плазме крови. Уровень белка выше определенной границы может рассматриваться как признак заболевания. Исследователь может сдвигать границу (черная вертикальная линия на рисунке), что приведет к изменению числа ложно-положительных результатов. Результирующий вид ROC-кривой зависит от степени пересечения двух распределений.

Применение[править | править вики-текст]

ROC-кривые впервые использованы в теории обработки сигналов в США во время Второй мировой войны для повышения качества распознавания объектов противника по радиолокационному сигналу[1]. После атаки на Перл Харбор в 1941 году, американские военные начали новые исследования, направленные на попытки увеличения точности опознавания японских самолетов по радиолокационным сигналам.

Впоследствии широкое применение ROC-кривые получили в медицинской диагностике[2][3]. ROC-кривые используется в эпидемиологии и медицинских исследованиях, часто упоминаются в одном контексте с доказательной медициной. В радиологии ROC-кривые используются для проверки и тестирования новых методик[4]. В социальных науках ROC-кривые используются для того, чтобы делать суждения о качестве вероятностных моделей. Также кривые используются в вопросах управления качеством продукции и кредитном скоринге.

Как уже было отмечено, ROC-кривые широко используются в машинном обучении. Впервые в этом контексте они были использованы в работе Спакмена, который продемонстрировал применение ROC-кривых при сравнении нескольких алгоритмов классификации.[5]

Дополнительные варианты использования[править | править вики-текст]

Площадь под кривой[править | править вики-текст]

В нормированном пространстве площадь под кривой (AUC — Area Under Curve, AUROC — Area Under Receiver Operating Characteristic) эквивалентна вероятности, что классификатор присвоит больший вес случайно выбранной положительной сущности, чем случайно выбранной отрицательной.[6] Это может быть показано следующим образом: площадь под кривой задается интегралом (ось развернута со знаком минус — большому значению координаты соответствует меньшее значение параметра ): . Угловые скобки обозначают операцию взятия среднего.

Было показано, что AUC тесно связана с понятием U-критерием Манна — Уитни[7][8], который является показателем того, присваивается ли позитивным элементам больший вес, чем негативным. Величина AUC также связана с Критерием Уилкоксона[8] и с коэффициентом Гини () следующим образом: , где:

[9].

Показатель AUC также часто используется для того, чтобы сравнивать модели, полученные на основе обучающей выборки[10]. Однако, в некоторых случаях использование этого показателя затруднено тем, что AUC является чувствительным к шуму[11]. Также в некоторых работах отмечаются дополнительные проблемы, возникающие при использовании величины AUC для сравнения моделей[12][13]. Как уже было отмечено ранее, величина площади под кривой может быть использована как величина вероятности, с которой случайно выбранной позитивной сущности будет присвоен вес больший, чем случайно выбранной негативной. Однако, в ряде работ[11][12] выдвинуты предположения о сложности получения надежных оценок величин AUC. Так, практическая ценность показателя AUC была поставлена под сомнение[13], указывая на то, что зачастую величина может вносить больше неопределенности, чем ясности.

ROC-кривые в небинарных задачах классификации[править | править вики-текст]

Расширение ROC-кривых на случай задач классификации с более двумя классами всегда было сопряжено с трудностями, так как количество степеней свободы растет квадратично от количества классов, и ROC-пространство имеет измерений, где  — количество классов.[14] Также были развитые некоторые практические подходы для случая, когда количество классов равно трем.[15] Объем под ROC-поверхностью (VUS — Volume Under Surface) рассматривается как метрика качества классификаторов для небинарных задач классификации.[16] Однако, из-за сложности анализа переменной VUS, были развиты другие подходы[17], основанные на расширении понятия VUS.

В связи с успешным применением ROC-кривых для анализа качества классификаторов, были изучены расширения ROC-кривых для других задач обучения с учителем. Среди работ стоит отметить посвященные так называемым REC-кривым (regression error characteristic — REC-curve)[18] и RROC-кривым (Regression ROC curves)[19]. Стоит отметить, что площадь под RROC-кривой пропорциональна дисперсии ошибки регрессионной модели.

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

  1. Signal detection theory and psychophysics. — New York, NY: John Wiley and Sons Inc., 1966. — ISBN 0-471-32420-5.
  2. (1993) «Receiver-operating characteristic (ROC) plots: a fundamental evaluation tool in clinical medicine». Clinical Chemistry 39 (8): 561–577. PMID 8472349.
  3. Pepe Margaret S. The statistical evaluation of medical tests for classification and prediction. — New York, NY: Oxford, 2003. — ISBN 0-19-856582-8.
  4. Obuchowski, Nancy A. (2003). «Receiver operating characteristic curves and their use in radiology». Radiology 229 (1): 3–8. DOI:10.1148/radiol.2291010898. PMID 14519861.
  5. Spackman, Kent A. (1989). "Signal detection theory: Valuable tools for evaluating inductive learning". Proceedings of the Sixth International Workshop on Machine Learning: 160–163, San Mateo, CA: Morgan Kaufmann. 
  6. Fawcett, Tom (2006); An introduction to ROC analysis, Pattern Recognition Letters, 27, 861—874.
  7. (1982) «The Meaning and Use of the Area under a Receiver Operating Characteristic (ROC) Curve». Radiology 143: 29–36. PMID 7063747.
  8. 1 2 (2002) «Areas beneath the relative operating characteristics (ROC) and relative operating levels (ROL) curves: Statistical significance and interpretation». Quarterly Journal of the Royal Meteorological Society (128): 2145–2166.
  9. Hand, David J.; and Till, Robert J. (2001); A simple generalization of the area under the ROC curve for multiple class classification problems, Machine Learning, 45, 171—186.
  10. (1983-09-01) «A method of comparing the areas under receiver operating characteristic curves derived from the same cases». Radiology 148 (3): 839–43. PMID 6878708. Проверено 2008-12-03.
  11. 1 2 Hanczar, Blaise; Hua, Jianping; Sima, Chao; Weinstein, John; Bittner, Michael; and Dougherty, Edward R. (2010); Small-sample precision of ROC-related estimates, Bioinformatics 26 (6): 822—830
  12. 1 2 Lobo, Jorge M.; Jiménez-Valverde, Alberto; and Real, Raimundo (2008), AUC: a misleading measure of the performance of predictive distribution models, Global Ecology and Biogeography, 17: 145—151
  13. 1 2 Hand, David J. (2009); Measuring classifier performance: A coherent alternative to the area under the ROC curve, Machine Learning, 77: 103—123
  14. Srinivasan, A. (1999). "Note on the Location of Optimal Classifiers in N-dimensional ROC Space". Technical Report PRG-TR-2-99, Oxford University Computing Laboratory, Wolfson Building, Parks Road, Oxford.. 
  15. Mossman, D. (1999). «Three-way ROCs». Medical Decision Making 19: 78–89. DOI:10.1177/0272989x9901900110.
  16. (2003) "Volume under the ROC Surface for Multi-class Problems". Machine Learning: ECML 2003: 108–120.. 
  17. (2012) «A Simple Generalisation of the Area Under the ROC Curve for Multiple Class Classification Problems». Machine Learning 45: 171–186.
  18. (2003) "Regression error characteristic curves". Twentieth International Conference on Machine Learning (ICML-2003). Washington, DC.. 
  19. Hernandez-Orallo, J. (2013). «ROC curves for regression». Pattern Recognition 46 (12): 3395–3411 .. DOI:10.1016/j.patcog.2013.06.014.