Межэкспертная надёжность

Степень согласия между разными оценщиками, использующими один инструмент.

Межэкспертная надёжность

Когда два психиатра независимо оценивают одного пациента по структурированному интервью, их выводы могут расходиться. Межэкспертная надёжность измеряет, насколько часто это расхождение происходит, и выражает согласие в одном числе. Это особенно критично для инструментов, где оценщик интерпретирует поведение, а не просто считает баллы: структурированные клинические интервью, наблюдательные шкалы, кодирование видеозаписей.

Для категориальных данных (есть/нет расстройство) используют каппу Коэна (κ): значение < 0.40 считается слабым согласием, 0.40–0.60 — умеренным, 0.60–0.80 — хорошим, > 0.80 — отличным. Для шкал с непрерывными баллами предпочтителен коэффициент интраклассовой корреляции (ICC). Структурированные диагностические интервью для депрессии и ПТСР, на которых основаны такие инструменты, как PCL-5, достигают κ около 0.70–0.85 при правильно обученных оценщиках. Хорошо стандартизированные самоотчётные опросники — тот же PHQ-9 — вопрос межэкспертной надёжности просто не поднимают, потому что оценщик один — сам респондент.

Контринтуитивный факт: высокое межэкспертное согласие не означает, что оба эксперта правы. Два рентгенолога могут единодушно пропустить одну и ту же опухоль — их согласие будет идеальным, точность — нулевой. Поэтому межэкспертную надёжность всегда нужно интерпретировать вместе с критериальной валидностью: сравнением с «золотым стандартом» диагностики.

Глоссарий Психометрики — справочник терминов психометрики. Пройдите PHQ-9 для примера.

психометрика psychometric-basics