22.13 Кривые ROC
Понятие кривых ROC (Receiver Operating Characteristic — функциональные характеристики приемника) взято из методологии анализа качества приёма сигнала (Signal Detection Analysis). Теория, стоящая за этим анализом, Theorie of Signal Detectability (TSD — "Теория определимости сигнала"), хотя и происходит первоначально из электроники и электротехники, но может также быть применена в области медицины, для анализа взаимодействия чувствительности и представительности диагностического теста. Поясним это при помощи примера.
В разделе 16.4 (Бинарная логистическая регрессия) было показано, каким образом при помощи переменных, соответствующих результатам Т-типизации клеток, которые относятся к интервальной шкале, может быть спрогнозировано появление карциномы мочевого пузыря. Если вы посмотрите на обе группы (больных и здоровых), то заметите, что здоровые демонстрируют более высокие значения Т-типизации ячеек, а больные скорее более низкие значения. Поэтому можно попытаться найти граничное значение Т-типизации ячеек, которое будет чётко разделять обе группы больных и здоровых.
Это и было достигнуто при помощи метода бинарной логистической регрессии. Пройдём ещё раз тот путь, который мы проходили в главе 16.4.
Откройте файл hkarz.sav.
Выберите в меню Analyze... (Анализ) Regression. ..(Регрессия) Binary logistic... (Бинарная логистическая)
В диалоговом окне Logistic Regression (Логистическая регрессия) переменную gruppe (группа) поместите в поле зависимых переменных, а переменную tzell — в поле ковариций. Результаты теста LAI мы сначала не будем использовать в расчёте. При помощи выключателя Save... (Сохранить) организуйте сохранение прогнозируемой принадлежности к группе в виде дополнительной переменной. Начните расчёт нажатием ОК.
К исходному файлу данных добавилась переменная pgr_1. Если Вы построите таблицу сопряженности между переменной gruppe (группа) в качестве строчной переменной и переменной pgr_1 в качестве столбцовой переменной, то получите следующий результат (для сравнения см. рис. 16.7):
GRUPPE * Predicted group Crosstabulation
(GRUPPE * Прогнозируемая группа таблица сопряженности) |
||||
Count (Количество) |
||||
|
Predicted group (Прогнозируемая группа) |
Total (Сумма) |
||
krank (Болен) |
gesund (Здоров) |
|||
GRUPPE |
krank (Болен) |
18 |
6 |
24 |
gesund (Здоров) |
4 |
17 |
21 |
|
Total (Сумма) |
|
22 |
23 |
45 |
Среди 24 фактически больных 18 были верно расценены как больные (Rightly Positive (Верно положительный), RP), а 6 не верно отнесены к группе здоровых (Wrong Negative (Ложно отрицательный), WN). Из 21 фактически здорового человека 17 были верно отнесены к группе здоровых (Rightly Negative (Верно отрицательный), RN) и 4 не верно расценены больными (Wrong Positive (Ложно положительный), WP).
В качестве чувствительности теста выступает доля верно положительных предсказаний в суммарном количестве больных.
Эта величина характеризует способность теста как можно точнее отфильтровывать пациентов с сомнительным наличием болезни.
Под представительностью теста понимают долю верно отрицательных среди здоровых пациентов:
Эта величина характеризует способность теста обнаруживать исключительно пациентов с сомнительным наличием болезни. Для приведенного примера имеем
Чувствительность =18/(18 + 6) = 0,750
Представительность = 17/(17 + 4) = 0,810
Если при помощи меню Data (Данные) Sort Cases... (Сортировать наблюдения)
вы отсортируйте данные по переменной tzcll, то заметите, что все наблюдения со значениями, лежащими ниже 66,5, отнесены к категории болен, а все наблюдения со значениями, находящимися выше 66,5, отнесены к категории здоров.
Если Вы сместите граничное значение вниз или вверх и вновь рассчитаете чувствительность и специфичность, то результаты изменятся таким образом, что повышение чувствительности будет идти за счёт представительности, а повышение представительности за счёт чувствительности. Эту зависимость можно анализировать при помощи кривой ROC.
Выберите в меню Graphs (Графики) ROC Curve... (Кривая ROC)
Откроется диалоговое окно ROC Curve (Кривая ROC)
Переменной tzell присвойте статус тестируемой переменной, а переменной gruppe — статус переменной состояния. Под значением Value of State Variable: (Значение переменной состояния) понимается положительное значение, т.е. кодировка, соответствующая состоянию "болен". Введите в это поле 1. В группе Display (Показать) активируйте все имеющиеся опции.
Щелчком по кнопке Options... (Параметры) откройте диалоговое окно ROC Curve: Options (Кривая ROC: Опции) (см. рис. 22.66).
Активируйте опцию Smaller test result indicates more positive test (Меньший результат теста означает более положительный результат), так как в данном примере состоянию "болен" соответствует тенденция к уменьшению значений тестируемых переменных по сравнению с состоянием "здоров".
Результаты анализа, отображаемые в окне просмотра, приводятся ниже.
Case Processing Summary (Обработанные наблюдения)
GRUPPE b |
Valid N (listwise) (Действительные случаи (в соответствии со списком)) |
Positive a (Положительные) |
24 |
Negative (Отрицательные) |
21 |
Smaller values of the test result variable(s) indicate stronger evidence for a positive actual state (Низкие значения переменной(ых) указывают на скорее положительный результат теста).
a. The positive actual state is krank (Положительный результат теста соответствует состоянию болен).
b. The test result variable(s): TZELL has at least one tie between the positive actual state group and the negative actual state group (Результирующая переменная (переменные) теста: TZELL имеет по крайней мере одну связку между положительной и отрицательной группами).
Рис. 22.65: Диалоговое окно ROC Curve (Кривая ROC)
Рис. 22.66: Диалоговое окно ROC Curve: Options (Кривая ROC: Опции)
Area Under the Curve (Площадь под кривой)
Test Result Variable(s): TZELL (Переменная(ые) результата теста: TZELL) | ||||
Area (Площадь) |
Std. Error (Стандартная ошибка) |
Asymptotic Sig.a (Асимптотическ ая значимость) |
Asymptotic 95% Confidence Interval (Асимптотический 95 % доверительный интервал) |
|
Lower Bound (Нижняя граница) |
Upper Bound (Верхняя граница) |
|||
,849 |
,059 |
,000 |
,734 |
,964 |
The test result variable(s): TZELL has at least one tie between the positive actual state group and the negative actual state group (Результирующая переменная(ые) теста: TZELL имеет по крайней мере одну связку между положительной и отрицательной группами). Statistics may be biased (Статистики могут быть искажены (сдвинуты)).
a. Under the nonparametric assumption (В соответствии с непараметрическим предположением)
b. Null hypothesis: true area = 0.5 (Нулевая гипотеза: истинное значение площади = 0,5)
Coordinates of the Curve (Координаты кривой)
Test Result Variable(s): TZELL (Результирующая переменная(ые) теста: TZELL)
Positive if Less Than or Equal Toa (Положительно, если меньше или равно) |
Sensitivity (Чувствительность) |
1 - Specificity (1-Представительность) |
47,5000 |
,000 |
,000 |
52,0000 |
,042 |
,000 |
56,5000 |
,083 |
,000 |
58,0000 |
,125 |
,000 |
59,7500 |
,167 |
,000 |
61,0500 |
,208 |
,000 |
61,3000 |
,208 |
,048 |
61,7500 |
,292 |
,048 |
62,2500 |
,417 |
,048 |
62,0000 |
,458 |
,095 |
63,7500 |
,500 |
,095 |
64,7500 |
,542 |
,143 |
64,5000 |
,542 |
,190 |
65,7500 |
,625 |
,190 |
67,2500 |
,750 |
,190 |
68,7500 |
,792 |
,190 |
69,2500 |
,833 |
,190 |
69,7500 |
,833 |
,238 |
70,5000 |
,833 |
,333 |
71,2500 |
,958 |
,381 |
71,7500 |
,958 |
,476 |
72,2500 |
,958 |
,524 |
72,7500 |
,958 |
,571 |
73,2500 |
,958 |
,667 |
73,7500 |
1,000 |
,714 |
74,5000 |
1,000 |
,762 |
75,5000 |
1,000 |
,810 |
76,5000 |
1,000 |
,857 |
77,7500 |
1,000 |
,952 |
79,5000 |
1,000 |
1,000 |
The test result variable(s): TZELL has at least one tie between the positive actual state group and the negative actual state group (Результирующая переменная(ые) теста: TZELL имеет по крайней мере одну связь между положительной и отрицательной группами),
a. The smallest cutoff value is the minimum observed test value minus 1, and the largest cutoff value is the maximum observed test value plus 1. All the other cutoff values are the averages of two consecutive ordered observed test values.(Минимальное разделяющее значение равно минимальному наблюдаемому значению теста минус 1, максимальное разделительное значение равно максимальному наблюдаемому значению теста плюс 1. Все остальные разделительные значения являются средними значениями двух соседних наблюдаемых значений теста.)
С помощью кривой ROC чувствительность и комплиментарное значения представительности приводятся к единице. Диагностируемое значение с нулевой степенью прогнозирования изображается здесь линией, наклоненной под углом 45 градусов (диагональю). Чем больше выгнута кривая ROC, тем более точным является прогнозирование результатов теста. Индикатором этого свойства служит площадь под кривой ROC, которая для теста с нулевой степенью прогнозирования равна 0,5, а для случая с максимальной степенью прогнозирования — 1. Для рассматриваемого примера получилось значение равное 0,849, причём 95 % доверительный интервал соответствует значениям площади, принадлежащим диапазону от 0,734 до 0,964.
В следующей таблице Вы можете увидеть чувствительность и представительность для различных граничных значений. Для граничного значения 67,5 Вы вновь встретите уже рассчитанные нами показатели.