ROC-кривая

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
ROC-кривые трёх методов предсказания эпитопов

ROC-кривая (англ. receiver operating characteristic, рабочая характеристика приёмника) — график, позволяющий оценить качество бинарной классификации, отображает соотношение между долей верных положительных классификаций от общего числа положительных значений (англ. true positive rate, \mathrm{TPR}, называемой чувствительностью алгоритма классификации) с долей ошибочных положительных классификаций от общего числа отрицательных значений (англ. false positive rate, \mathrm{FPR}, величина 1-\mathrm{FPR} называется специфичностью алгоритма классификации) при варьировании порога решающего правила.

Также известна как кривая ошибок. Анализ классификаций с применением ROC-кривых называется ROC-анализом.

Количественную интерпретацию ROC даёт показатель AUC (англ. area under ROC curve, площадь под ROC-кривой) — площадь, ограниченная ROC-кривой и осью доли ложных положительных классификаций. Чем выше показатель AUC, тем качественнее классификатор, при этом значение 0,5 демонстрирует непригодность выбранного метода классификации (соответствует случайному гаданию).

Основная концепция[править | править вики-текст]

Задача классификации состоит в том, чтобы относить ранее неизвестные сущности к тому или иному классу. Примером такой задачи может быть постановка диагноза по медицинским анализам. В этом случае быть два класса результатов: положительный и отрицательный. Результатом классификации или медицинского диагноза может быть и непрерывное значение. Тогда для различия двух классов необходимо подобрать граничные значения(примером может служить постановка диагноза на основе данных о кровянном давлении).

Рассмотрим бинарную задачу классификации, в которой выходные метки классов могут быть помечены как положительный(positive) и отрицательный(negative). Тогда на выхоже классификатора может наблюдаться четыре различных ситуации:

  • Если результат классификации положительный, и истинное значение тоже положительное, то речь идет об истинно-положительном значении(true-positive, TP)
  • Если результат классификации положительный, но истинное значение отрицательное, то речь идет о ложно-положительном значении(false-positive, FP)
  • Если результат классификации отрицательный, и истинное значение тоже отрицатльное, то речь идет об истинно-отрицательном значении(true-negative, TN)
  • Если результат классификации отрицательный, но истинное значение положительно, то речь идет о ложно-отрицательном значении(false-negative, FN)

Возвращаясь к примеру с тестом на какое-либо заболевание, предположим, что врач на основе каких-либо медицинских анализов собирается поставить диагноз рака или его отсутствие. Тогда:

  • true-positive, TP - пациент болен раком, диагноз положительный
  • false-positive, FP - пациент здоров, диагноз положительный
  • true-negative, TN - пациент здоров, диагноз отрицательный
  • false-negative, FN - пациент болен раком, диагноз отрицательный

Четыре возможных выхода могут сформулированы и оформлены в виде таблицы сопряженности размера 2×2.

Случай непрерывных случайных величин[править | править вики-текст]

Receiver Operating Characteristic.png

Классификация часто основывается на непрерывных случайных величинах. В этом случае удобно записать вероятность принадлежности к тому или иному классу в виде функции распределения вероятностей, зависящей от некоего порогового(граничного) значения параметра T в виде P_1(T), а вероятность непринадлежности как P_0(T). Тогда количество ложно-положительных(false-positive rate,FPR) решений можно выразить в виде  FPR(T)=\int_{T}^\infty P_0 (T) dT . В то же время количество истинно-положительных решений(true-positive rate, TPR) можно выразить в виде  TPR(T)= \int_{T}^\infty P_1(T) dT . При построении ROC-кривой по оси X откладывают TPR(T) и по оси Y - FPR(T), полученных при разных значениях параметра T.

Например, представим, что уровни какого-нибудь белка в крови распределены нормально с центрами, равными 1 г/дЛ и 2 г/дЛ у здоровых и больных людей соответственно. Медицинский тест может давать показатель уровня какого-либо белка в плазме крови. Уровень белка выше определенной границы может рассматриваться как признак заболевания. Исследователь может сдвигать границу(черная вертикальная линия на рисунке), что приведет к изменению числа ложно-положительных результатов. Результирующий вид ROC-кривой зависит от степени пересечения двух распределений.

Применение[править | править вики-текст]

ROC-кривые впервые использованы в теории обработки сигналов в США во время Второй мировой войны для повышения качества распознавания объектов противника по радиолокационному сигналу[1]. После атаки на Перл Харбор в 1941 году, американские военные начали новые исследования, направленные на попытки увелечения точности опознавания японских самолетов по радиолокационным сигналам.

Впоследствии широкое применение ROC-кривые получили в медицинской диагностике[2][3]. ROC-кривые используется в эпидемиологии и медицинских исследованиях, часто упоминаются в одном контексте с доказательной медициной. В радиологии ROC-кривые используются для проверки и тестирования новых методик [4]. В социальных науках ROC-кривые используются для того, чтобы делать суждения о качестве вероятностных моделей. Также кривые используются в вопросах управления качеством продукции и кредитном скоринге.

Как уже было отмечено, ROC-кривые широко используются в машинном обучении. Впервые в этом контексте они были использованы в работе Спакмена, который продемонстрировал применение ROC-кривых при сравнении нескольких алгоритмов классификации.[5]

Дополнительные варианты использования[править | править вики-текст]

Площадь под кривой[править | править вики-текст]

В нормированном пространстве площадь под кривой(AUC - Area Under Curve, AUROC - Area Under Receiver Operating Characteristic) эквивалентна вероятности, что классиффикатор присвоит больший вес случайно выбранной положительной сущности, чем случайно выбранной отрицательной. [6] Это может быть показано следующим образом: площадь под кривой задается интегралом(ось X развернута со знаком минус - большому значению координаты соответствует меньшее значение параметра T):  A = \int_{\infty}^{-\infty} y(T) x'(T) dT = \int_{\infty}^{-\infty} TPR(T) FPR'(T) dT = \int_{-\infty}^{\infty} TPR(T) P_0(T) dT = \langle TPR \rangle
. Угловые скобки обозначают операцию взятия среднего.

Было показано, что AUC тесно связана с понятием U-критерием Манна — Уитни[7][8], который является показателем того, присваивается ли позитивным элементам больший вес, чем негативным. Величина AUC также связана с Критеррием Уилкоксона[8] и с коэффициентом Гини(G_1) следующим образом: G_1 = 2 AUC - 1, где:

G_1 = 1 - \sum_{k=1}^n (X_{k} - X_{k-1}) (Y_k + Y_{k-1})[9].

Показатель AUC также часто используется для того, чтобы сравнивать модели, полученные на основе обучающей выборки[10]. Однако, в некоторых случаях использование этого показателя затруднено тем, что AUC является чувствительным к шуму[11]. Также в некоторых работах отмечаются дополнительные проблемы, возникающие при использовании величины AUC для сравнения моделей[12][13]. Как уже было отмечено ранее, величина площади под кривой может быть использована как величина вероятности, с которой случайно выбранной позитивной сущности будет присвоен вес больший, чем случайно выбранной негативной. Однако, в ряде работ[11][12] выдвинуты предположения о сложности получения надежных оценок величин AUC. Так, практическая ценность показателя AUC была поставлена под сомнение[13], указывая на то, что зачастую величина может вносить больше неопределенности, чем ясности.

ROC-кривые в небинарных задачах классификации[править | править вики-текст]

Расширение ROC-кривых на случай задач классификации с более двумя классами всегда было сопряжено с трудностями, так как количество степеней свободы растет квадратично от количества классов, и ROC-пространство имеет c(c-1) измерений, где c - количество классов. [14] Также были развитые некоторые практические подходы для случая, когда количество классов равно трем. [15] Объем под ROC-поверхностью(VUS - Volume Under Surface) рассматривается как метрика качества классификаторов для небинарных задач классификации. [16] Однако, из-за сложности анализа переменной AUS, были развиты другие подходы[17], основанные на расширении понятия AUS.

В связи с успешным применением ROC-кривых для анализа качества классификаторов, были изучены расширения ROC-кривых для других задач обучения с учителем. Среди работ стоит отметить посвященные так называемым REC-кривым(regression error characteristic - REC-curve)[18] и RROC-кривым(Regression ROC curves)[19]. Стоит отметить, что площадь под RROC-кривой пропорциональна дисперсии ошибки регрессионной модели.

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

  1. Signal detection theory and psychophysics. — New York, NY: John Wiley and Sons Inc., 1966. — ISBN 0-471-32420-5
  2. (1993) «Receiver-operating characteristic (ROC) plots: a fundamental evaluation tool in clinical medicine». Clinical Chemistry 39 (8): 561–577. PMID 8472349.
  3. Pepe Margaret S. The statistical evaluation of medical tests for classification and prediction. — New York, NY: Oxford, 2003. — ISBN 0-19-856582-8
  4. Obuchowski, Nancy A. (2003). «Receiver operating characteristic curves and their use in radiology». Radiology 229 (1): 3–8. DOI:10.1148/radiol.2291010898. PMID 14519861.
  5. Spackman, Kent A. (1989). "Signal detection theory: Valuable tools for evaluating inductive learning". Proceedings of the Sixth International Workshop on Machine Learning: 160–163, San Mateo, CA: Morgan Kaufmann. 
  6. Fawcett, Tom (2006); An introduction to ROC analysis, Pattern Recognition Letters, 27, 861–874.
  7. (1982) «The Meaning and Use of the Area under a Receiver Operating Characteristic (ROC) Curve». Radiology 143: 29–36. PMID 7063747.
  8. 1 2 (2002) «Areas beneath the relative operating characteristics (ROC) and relative operating levels (ROL) curves: Statistical significance and interpretation». Quarterly Journal of the Royal Meteorological Society (128): 2145–2166.
  9. Hand, David J.; and Till, Robert J. (2001); A simple generalization of the area under the ROC curve for multiple class classification problems, Machine Learning, 45, 171–186.
  10. (1983-09-01) «A method of comparing the areas under receiver operating characteristic curves derived from the same cases». Radiology 148 (3): 839–43. PMID 6878708. Проверено 2008-12-03.
  11. 1 2 Hanczar, Blaise; Hua, Jianping; Sima, Chao; Weinstein, John; Bittner, Michael; and Dougherty, Edward R. (2010); Small-sample precision of ROC-related estimates, Bioinformatics 26 (6): 822–830
  12. 1 2 Lobo, Jorge M.; Jiménez-Valverde, Alberto; and Real, Raimundo (2008), AUC: a misleading measure of the performance of predictive distribution models, Global Ecology and Biogeography, 17: 145–151
  13. 1 2 Hand, David J. (2009); Measuring classifier performance: A coherent alternative to the area under the ROC curve, Machine Learning, 77: 103–123
  14. Srinivasan, A. (1999). "Note on the Location of Optimal Classifiers in N-dimensional ROC Space". Technical Report PRG-TR-2-99, Oxford University Computing Laboratory, Wolfson Building, Parks Road, Oxford.. 
  15. Mossman, D. (1999). «Three-way ROCs». Medical Decision Making 19: 78–89. DOI:10.1177/0272989x9901900110.
  16. (2003) "Volume under the ROC Surface for Multi-class Problems". Machine Learning: ECML 2003: 108–120.. 
  17. (2012) «A Simple Generalisation of the Area Under the ROC Curve for Multiple Class Classification Problems». Machine Learning 45: 171–186.
  18. (2003) "Regression error characteristic curves". Twentieth International Conference on Machine Learning (ICML-2003). Washington, DC.. 
  19. Hernandez-Orallo, J. (2013). «ROC curves for regression». Pattern Recognition 46 (12): 3395–3411 .. DOI:10.1016/j.patcog.2013.06.014.