ТЕСТ СО ВСЕХ СТОРОН

ПОЧЕМУ ТЕСТЫ НИЧЕГО НЕ ПРЕДСКАЗЫВАЮТ,
ИЛИ ЧТО ТАКОЕ ВАЛИДНОСТЬ?

(из цикла «Критерии научности в тестологии»)

В прошлых публикациях из данного цикла (см. «Школьный психолог», №№ 47, 48, 1999 г.) мы выяснили, что такое измерительные тесты, чем они отличаются от авторских, откуда берутся обоснованные ключи к тесту.
Сегодня поговорим о валидности тестов. Наиболее точный русский эквивалент этого понятия — «обоснованность». Валидность в ряду других психометрических свойств (надежность, репрезентативность, достоверность) — необходимое свойство научных, измерительных тестов. Валидность обозначает, насколько точно тест выявляет именно то психическое свойство, на измерение которого он направлен. Если тест не обладает валидностью (или она не доказана), то мы просто не знаем, что он измеряет на самом деле.

ЧТО ИЗМЕРЯЕМ?

Если надо измерить такие физические параметры, как рост или вес человека, то мы не сомневаемся в том, что ростомер измеряет именно рост, а весы определяют вес. А вот в ситуации с психологическими измерениями нередко происходит путаница.
Предположим, что некий неопытный психолог подобрал такой тест на интеллект, который оказался слишком легким для его испытуемых (например, для одаренных детей). И что он надумал тогда сделать? Взял и сократил вдвое время на выполнение теста, наивно полагая, что он от этого станет в два раза труднее. Но что происходит на самом деле? Во многих научных работах показано, что в этом случае успешное прохождение теста в большей степени выражает не столько уровень сообразительности испытуемого, сколько уровень его стрессоустойчивости — готовности концентрировать внимание и точно действовать в условиях дефицита времени. Психолог хочет измерить одно психическое свойство (интеллект), а на самом деле измеряет другое (стрессоустойчивость). Это и означает снижение валидности теста из-за нарушения правил его проведения.

ЛОВИСЬ РЫБКА...

Психические свойства, в отличие от физических, являются скрытыми, непосредственно ненаблюдаемыми. Например, рост и вес можно довольно точно оценить «на глазок», а интеллект и стрессоустойчивость таким образом определить очень трудно. То, с чем мы имеем дело в тесте, — это не сами психические свойства, а только их проявления, или, как говорят в тестологии, «эмпирические индикаторы».
Тут уместна метафора «рыбной ловли». Психические свойства — это рыба, которую рыбак-тестолог не видит, так как она плавает на глубине. Рыбак имеет возможность наблюдать только за поплавками. Когда дергается какой-то поплавок, он не знает точно, какая именно рыба клюет. Но по наживке можно сделать какое-то предположение: вряд ли блесну заглотнет мелкая рыбешка. Рыбак вытаскивает с помощью удочки рыбину на берег, психическое же свойство нельзя «вытащить на берег» и разглядеть.
Ненаблюдаемые, косвенно измеряемые психические свойства в тестологии называют «латентными переменными». Какие же именно «латентные переменные» дергают за «крючки» наших удочек? Это и есть вопрос о валидности, описанный на языке рыболовной метафоры.

ЧТО СКРЫВАЕТСЯ В ГЛУБИНЕ

Рассмотрим схему, поясняющую то, о чем мы говорим (см. рис. 1).

Рис. 1. Связь свойств и тестовых показателей

Эта схема иллюстрирует различие между наблюдаемыми тестовыми индикаторами (ответами на тестовые задания) и измеряемыми психическими свойствами (латентными переменными). Рассмотрев схему, можно отметить еще одну важную особенность психологических измерений: между измеряемыми свойствами и индикаторами нет строгого взаимно-однозначного соответствия, а есть лишь вероятностная зависимость.
Бывает ведь, что и щука клюет на мотыля, хотя это крайне маловероятное событие. Так и в психодиагностике — сохраняются потенциальные (хотя и менее вероятные) связи между тестовыми индикаторами и «чужими» психическими свойствами. Эти связи и являются источниками ошибок и низкой валидности.
Вот почему в аннотации к тесту (в «техническом паспорте» на методику) обязательно ищите информацию о том, как разработчик теста проверял его валидность. Если такой информации нет, то данный тест нет никаких оснований считать научно обоснованным, или, иными словами, валидным.

НУЖНА КОРРЕЛЯЦИЯ

Как же производится проверка валидности? Самые серьезные тесты проверяют с помощью нескольких методов, ибо каждый из них имеет определенные недостатки, и один метод дополняет другой.
Простейший метод — это экспертная оценка заданий, так называемая экспертно-содержательная валидизация. В этом случае специалисты в той области, в которой создается тест, делают вывод о том, хороша эта «удочка» или нет.
Но такой метод пригоден далеко не всегда. Он уместен, когда мы имеем дело, например, с тестами на измерение образовательных достижений. Конечно, правильнее всего проверку валидности теста на знание географии начать с оценки заданий квалифицированным методистом-географом.
Но экспертной оценки для обоснования валидности любых тестов (даже образовательных) недостаточно. Она должна быть проверена с помощью статистической, корреляционной процедуры.
Корреляционная проверка валидности во многом сходна (хотя и не совпадает полностью) с той процедурой, которую мы обсуждали в прошлый раз, — с проверкой ключа. На языке рыболовной метафоры, ключ к тесту — это тот отрезок лески, который тянется от поплавка к крючку (и к искомой рыбе). Чем прочнее эта связь, тем с большей вероятностью по тестовому показателю (индикатору) мы можем сделать вывод о психическом свойстве. Если в графическом тесте многократно подправленная контурная линия рисунка интерпретируется как признак неуверенности в себе, то это означает, что появление этого внешнего признака в рисунке должно статистически значимо коррелировать с указанной чертой личности ребенка.

ПОНАБЛЮДАЕМ ЗА ПОВЕДЕНИЕМ

Самая ценная проверка валидности: объективное наблюдение за реальным поведением испытуемых, за которым следует статистическое сравнение результатов теста с результатами наблюдений и расчет коэффициента корреляции. Этот метод называется методом «крайних групп» (или методом «контрастных групп»).
Например, дети в игре должны по очереди принимать важные решения. Часть детей делает это без колебаний, быстро (группа уверенных), другая — медленно и нерешительно, с трудом преодолевая робость и колебания (группа неуверенных). Так отбираются две «крайние группы». Потом с ними исследователь (разработчик теста) проводит свой тест. В результате такого исследования создается таблица.

	Верхняя группа по критерию	Нижняя группа по критерию
Высокий балл по тесту	a	b
Низкий балл по тесту	c	d

Здесь в клеточке «а» указывается число испытуемых, которые показали одновременно высокий балл по тесту и попали в верхнюю крайнюю группу по критерию (по поведенческому показателю). Соответственно, в клеточке «b» — число испытуемых, которые показали одновременно высокий балл по тесту и попали в нижнюю крайнюю группу по критерию и т. д.
Тест обладает поведенческой валидностью, если выполняются два следующих неравенства a>b и c<d, то есть когда число совпадений между тестом и критерием превышает число несовпадений.
Не будем здесь утомлять наших читателей формулами различных коэффициентов корреляции. Главное — это понять смысл. Это можно сделать, если просто вникнуть в то, как устроена указанная четырехклеточная таблица.
Действительно, недостаточно показать, что только a>b, то есть что испытуемые с высоким баллом по тесту демонстрируют уверенное поведение чаще, чем неуверенное. Ведь при этом может оказаться, что и c>d, то есть испытуемые с низким баллом тоже могут демонстрировать уверенное поведение (такое возможно при неравной численности «крайних групп»). Надо еще доказать, что c<d, то есть что испытуемые с низким баллом чаще демонстрируют именно неуверенное поведение.

В ОБРАТНУЮ СТОРОНУ

Однако и метод «крайних групп» иногда оказывается недостаточным или приводит к ошибочным выводам. Это происходит в том случае, если у нас есть основание предположить, что между отбором испытуемых в «крайние группы» и тестовыми показателями имеется причинная связь «в обратную сторону», то есть попадание в ту или иную «крайнюю группу» приводит к изменению тестового балла. На рис. 2 показано, что в идеале тестируемое свойство должно быть причиной попадания испытуемого в «крайнюю группу», а на наоборот.

Рис. 2. Прогностический треугольник

На «прогностическом треугольнике» показаны разными стрелками все связи, которые должны иметь место в случае идеального теста: измеряемое свойство должно проявляться в тестовом балле (тонкая сплошная стрелка) и быть причиной критериального события (толстая сплошная стрелка). Только тогда тестовый балл позволит «прогнозировать» (пунктирная стрелка) критериальное событие.

ДЕЛО НЕ В ДЕПРЕССИИ

Предположим, мы создаем тест на выявление склонности подростков к употреблению наркотиков. Действуем при этом так: набираем главную «крайнюю группу» (склонных к употреблению) из числа подростков, уже госпитализированных в клинику для лечения от наркомании. Другая крайняя группа — обычные дети из школы. Организационно это вроде бы проще всего (именно в клинике наркоманы уже локализованы и никуда не денутся — выполнят предлагаемый тест). Но при этом чаще всего возникает ложная причинная связь — так называемый «артефакт госпитализации».
Известно, что человек, помещенный в стационар с любым диагнозом, испытывает, как правило, депрессивное состояние. Выявленные таким образом наркоманы могут показать высокие баллы по тесту на уровень депрессивности. Делается вывод: психологический тест на депрессию позволяет прогнозировать склонность к наркомании. А реальная причинная связь действует в обратном направлении: употребление наркотиков приводит человека в клинику, где он испытывает депрессию. Валидизированный таким способом тест вовсе непригоден для прогнозирования склонности к наркомании.

ЧТОБЫ СДЕЛАТЬ ПРОГНОЗ

Для того чтобы создать по-настоящему прогностичный тест, исследователи должны выполнить еще более трудоемкую и продолжительную по времени работу, чем проверка валидности по методу «крайних групп».
Надо обследовать многочисленную выборку подростков (буквально сотни и тысячи человек), затем проследить в течение, например, ближайших трех лет, кто из этих подростков окажется привержен к употреблению наркотиков и попадет на лечение (или в милицейские протоколы).
При такой валидизации (ее называют прогностической) критериальное событие (то, которое делит испытуемых на «крайние группы») происходит не до, а после тестового измерения. Ждать приходится иногда очень долго. Однако это и есть самый ценный источник информации о валидности. Ее трудно добывать, но именно она необходима для использования теста в целях прогноза.
Поэтому учтите: если кто-то комплектует тест вместо серьезной аннотации саморекламной агиткой, в которой ни слова не говорится о том, как именно производилась проверка прогностической валидности, то нет никаких оснований этому доверять. Даже если при этом фигурирует фамилия всеми уважаемого автора-психолога.

Александр ШМЕЛЕВ,
доктор психологических наук,
профессор МГУ

Продолжение следует

Спонсор публикации статьи: интернет-магазин вкусного чая Qwertea.ru – предлагает Вам лучшие сорта всемирно известных сортов изысканного напитка, в число которых входят бодрящий чай Да Хун Пао, Би Ло Чунь, Тайпин Хоукуй, Те Гуань Инь и многие другие. Выгодные цены и доставка на дом, подробное описание ритуала заваривания, помогут Вам насладится ароматным напитком в полном объеме.