Тест-ретестовая надёжность

Стабильность результатов теста при повторном прохождении через определённый интервал.

Тест-ретестовая надёжность

Представьте, что вы взвесились утром и получили 74 кг, а через час весы показали 78 кг — вы бы не доверяли таким весам. То же самое с психологическими тестами: если человек с хронической тревогой заполняет опросник сегодня и через две недели, его результаты должны быть похожи — при условии, что реальное состояние не изменилось. Тест-ретестовая надёжность как раз проверяет, насколько инструмент воспроизводит стабильные характеристики, а не ловит случайный шум.

Измеряется она обычно коэффициентом интраклассовой корреляции (ICC) или коэффициентом Пирсона. Значение ICC ≥ 0.75 считается хорошим, ≥ 0.90 — отличным. Для PHQ-9 ретестовая надёжность составляет около 0.84 при интервале 1–2 недели, что является стандартом для скрининговых инструментов. Интервал между тестированиями принципиален: слишком короткий (несколько часов) завышает коэффициент из-за эффекта памяти, слишком длинный (несколько месяцев) — занижает, потому что состояние могло реально измениться.

Ключевой парадокс: высокая ретестовая надёжность — это не всегда достоинство. Если тест используется для мониторинга лечения, он должен меняться вместе с состоянием пациента. Инструмент, который даёт одинаковый результат до и после курса терапии, «надёжен» в статистическом смысле, но бесполезен клинически — он не улавливает реальных изменений. Поэтому для мониторинга дополнительно изучают чувствительность к изменениям и минимальное клинически значимое различие.

Глоссарий Психометрики — справочник терминов психометрики. Пройдите PHQ-9 для примера.

психометрика psychometric-basics