З.1. Стандартизация теста

2015-11-11

1867

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 1 2 345 6 7 8 9 10 Следующая ⇒

' ных, методических и статистических процедур, обеспечивающих создание строго фиксированных компонентов теста

Глава 1. Психометрическая парадигма конструирования тестов и шкал

(инструкции, набора заданий, метода обработки протоколов и подсчета баллов, способа интерпретации).

Как основное методическое требование, стандартизация теста содержится в современных определениях понятия «психологический тест». «Тест - стандартизованная методика психологического измерения, предназначенная для диагностики выраженности у индивида психических свойств или состояний при решении практических задач» [Психологический словарь, 1997. С. 379]. «Психологический тест - психодиагностическая методика, предполагающая стандартизованную процедуру проведения, количественную формализованную процедуру обработки результатов и подсчета тестовых показателей, готовый перечень рекомендаций по интерпретации полученных показателей» [Шмелев, 1996. С. 449]. Б. Д. Карвасарский (1982), В. М. Блейхер с соавт. (1996) акцентируют возможность установления с помощью стандартизованного психологического теста уровня развития (выраженности) той или иной психической функции по сравнению с усредненными показателями, характерными для данной популяции (полученными ранее на соответствующей выборке больных и на здоровых испытуемых). По А. Анастази (1982, 2001), психологический тест - в сущности есть объективное и стандартизованное измерение выборки поведения.

В психодиагностике выделяют две формы стандартизации теста [Бурлачук, Морозов, 1999]. В первом случае под стандартизацией понимается регламентация процедуры проведения, унификация инструкции, бланков исследования, способов регистрации результатов, условий проведения исследования. Во втором случае - преобразование первичных тестовых оценоквновую шкалу, основанную ужененаколи-чественныхэмпирическихзначенияхизучаемогопоказателя,анаегоот-носительном месте в распределении результатов в выборке испытуемых.

Стандартизация как преобразование первичных тестовых оценок в новую шкалу - это процедура получения шкалы, позволяющей сравнивать индивидуальный тестовый результат с результатами испытуемых по выборке стандартизации. Эта процедура позволяет определить так называемые тестовые нормы или таблицы пересчета «сырых», первичных оценок по тесту в стандартные.

Процедуру стандартизации психодиагностического теста можно представить в виде следующих шагов.

1. Определяется генеральная совокупность, для которой предназначена методика.

2. Извлекается выборка из генеральной совокупности.

Компьютерная психодиагностика

3. По результатам исследования выборки строится эмпирическое распределение.

4. С помощью статистических критериев эмпирическое распределение подвергается анализу на соответствие его нормальному виду.

5. Если распределение оказывается нормальным, можно сразу же на основе характеристик эмпирического распределения проводить линейную стандартизацию.

6. Если распределение отличается от нормального, то либо делается попытка привести его к нормальному виду, либо проводится нелинейная стандартизация (она также называется процентиль-ной нормализацией).

Рассмотрим эти этапы последовательно.

1. Определение генеральной совокупности.Под генеральной совокуп
ностью понимается множество потенциальных испытуемых, для кото
рых предназначен конструируемый тест. Например, методика ис
следования интеллекта Векслера подразумевает возможность
обследования всего взрослого населения страны, а патохарактероло-
гический диагностический опросникдля подростков (ПДО) - подро
стков в возрасте 14-18 лет. Чтобы можно было судить о степени выра
женности того или иного психического свойства у отдельного человека,
необходимо знать, как распределено это качество в генеральной сово
купности. Поскольку процедура обследования всей генеральной сово
купности проблематична, то для того, чтобы сделать достоверные пред
положения о распределении, прибегают к извлечению из генеральной
совокупности некоторой небольшой ее части - выборки.

Таким образом, под выборкой стандартизации поммжт множество испытуемых, на котором собираются диагностические нормы и проводится стандартизация конструируемого теста. Основное требование, предъявляемое к выборке, заключается в том, что она должна отвечать свойствурепрезентативности(представительности),тоестьвнейдол-жны отражаться все свойства генеральной совокупности. Существует два основных способа создания выборки стандартизации: построение случайным образом и моделирование по свойствам генеральной совокупности.

2. Извлечение выборки из генеральной совокупности.Для построения
выборки случайным образом используются способы жеребьевки, отбор
по таблицам случайных чисел, устанавливаются какие-либо правила
отбора, например, каждый третий, каждый десятый и т. п. из списка.

Моделирование выборки осуществляется в определенной последовательности. Выбираются те свойства, которые могут повлиять на

___ Глава 1. Психометрическая парадигма конструирования тестов и шкал

результат тестирования (как правило, это демографические показатели пола, возраста и др.). Внутри каждого свойства выделяются градации (интервалы возрастов, уровни образования и т. п.), на основании которых строится матричная модель генеральной совокупности. В каждой клетке матрицы по данным переписи населения или другим статистическим данным записывается число людей генеральной совокупности, обладающих соответствующими свойствами. Выборка извлекается пропорционально по отношению к каждой клетке матрицы. Например, если известно, что соотношение мужчин и женщин в некотором городе составляет 40%и 60%соответственно, то и в выборке должно соблюдаться это соотношение.

3. Построение эмпирического распределения.На этом этапе выбира
ется интервал квантования, подсчитываем частота (количество слу
чаев) для каждого интервала квантования и строится либо гистограм
ма, либо кумулятивная гистограмма.

Компьютерное вычисление существенным образом облегчает этот процесс. Так, например, статистические процедуры системы 5ТАТ15-Т1СА, сгруппированные в нескольких специализированных статистических модулях, позволяют решать задачи предельной сложности как по объему и размерности обрабатываемых данных, так и по точности и скорости вычислений. Для решения задач этого этапа можно использовать модуль «Основные статистики и таблицы» (Bа₈1с ЪШ.Шс*/ ТаЫез), который как раз и нацелен на проведение предварительной обработкиданных,осуществлениеразведочного анализа, определение зависимости между ними, разбиение их различными способами на группы, просмотр этих групп визуально и построения гистограмм.

4. Анализ эмпирического распределения на соответствие его нормаль
ному ввду.Стандартизация психодиагностических тестов основана на так
называемой аксиоме нормальности, т. е. опирается на предположение, что
все психические характеристики распределены в популяции по нормаль
ному закону Гаусса. Нормальное распределение имеет вид симметрич
ной колоколообразной кривой, которая растянута до бесконечности в
положительном и отрицательном направлениях. Следует отметить, что
значительная часть процедур классической статистики разработана для
случайных величин с гауссовым нормальным распределением.

На этом этапе полученное эмпирическое распределение оценивается с помощью статистических критериев. Так, например, система 5ТАТ15Т1САпредлагаетдля оценки нормальности распределения три критерия: Колмогорова-Смирнова, Лилиефорса и Шапиро-Уилкса.

Предположение о нормальности распределения тестовых результатов является своего рода идеализацией. На практике многие тесты дают

Компьютерная психодиагностика

результаты, распределение которых отличается от нормального. Поэтому часто возникает вспомогательная задача нахождения способа преобразования данных к нормальному виду. Построенная на предыдущем этапе гистограмма или полигон распределения позволяют легко выявить лево- или правостороннюю асимметрию, двугорбость и другие отклонения от нормальности. В психологических исследованиях часто встречаются логарифмические нормальные распределения, особенностью которых является крутая ветвь полигона и пологая правая (то есть частоты резко падают с ростом тестовых оценок). При логарифмировании исходных тестовых данных левая ветвь кривой распределения растягивается, и распределение принимает приближенно нормальный вид. Для нормализации распределений с правосторонней асимметрией используются тригонометрические и степенные преобразования данных. Таким образом удается преобразовать тестовые оценки, не подчиняющиеся закону нормального распределения, чтобы распределение новых, преобразованных оценок стало нормальным.

Компьютер позволяет автоматизировать подбор и подгонку требуемого преобразования первичных тестовых оценок из заданного класса аналитических функций, а также реализовать трудоемкую в ручном исполнении процедуру перехода к нормально распределенным оценкам путем новой оцифровки выходного тестового показателя.

5. Проведение линейней стандартизации.Результат тестирования испытуемого X, (/ = 1,..., т, где т -количество заданий теста), вычисленный с помощью диагностической модели У,= ЦХ,),обычно называется первичной тестовой оценкой, или «сырым» баллом.

Пол линейной стандартизацией понимают перевод исходных («сырых») баллов по тесту в стандартную шкалу путем применения формулы линейного преобразования следующего вида:

^ = ^g _ ^Угт>

1 о_у 1 <зу 9

где 2; - стандартная тестовая оценка /-го испытуемого; Г, - нормальная оценка /-го испытуемого; и, и о, - среднее арифметическое значение и среднеквадратическое отклонение К

Так как Z-оценки могут принимать дробные и отрицательные значения, что неудобно для восприятия, на практике используются взвешенные стандартные оценки V} = а + Ь2,где а и b - константы центрирования и пропорциональности, соответственно. Параметр а имеет смысл в данном случае среднего арифметического значения взвешенной стандартной оценки F, а Ъ интерпретируется как среднеквадратическое отклонение К

Глава 1. Психометрическая парадигма конструирования тестов и шкал

В психодиагностике используется несколько типов стандартных шкал, позволяющих сравнивать между собой показатели разных тестов (субшкал одного теста) в едином масштабе. Как правило, стандартные шкалы основаны на модели нормального распределения и описываются двумя параметрами: значением среднего и стандартного (или среднеквадратического) отклонения.

Наиболее распространенными типами стандартных шкал являются:

а) шкала Z-оценок и производные от нее (например, Т-шкала:
а = 50;b =10; пример теста - MMР1);

б) шкалы стенов, станайнов, пяти- и семибалльные шкалы (напри
мер, шкала стенов: а = 5,5; Ъ = 2; пример теста - 16РР);

в) шкала 10 (например, а= 100;Ъ= 15; пример теста-IQ Айзенка).

Компьютер позволяет достаточно просто осуществить линейную стандартизацию. Так, например, система 5ТАТ15Т1СА может вычислить практически все описательные статистики, включая медиану, моду, квартили, определенные пользователем процентили, средние и стандартные отклонения, доверительные интервалы для среднего, коэффициенты асимметрии, эксцесса (с их стандартными ошибками), гармоническое и геометрическое среднее, а также многие другие описательные статистики.

6. Проведение нелинейнейстандартизации. Если эмпирическое распределение отличается от нормального, например, оказывается асимметричным или полимодальным, то в этом случае прибегают к нелинейной стандартизации (процентильной нормализации). Под процентильной нормализацией понимается перевод «сырых» оценок в любой вид стандартных путем нахождения процентильных границ групп в эмпирическом распределении так, чтобы они соответствовали процентильным границам групп, выделяемых на основе единичного нормального распределения. При этом эмпирическое распределение как бы нарезается процентильными значениями на вертикальные полосы, площади которых соответствуют площадям, нарезаемым под одной из шкал стандартизации для нормального распределения.

При проведении процентильной нормализации надо убедиться в том, что полученные шкалы обладают устойчивостью, то есть нормы, получаемые для целой выборки и выделенной случайным образом ее половины, должны совпадать. Если результаты не устойчивы, то либо образуется более широкая выборка, либо проводится эмпирическая нормализация - изменяются формулировки вопросов, заданий так, чтобы распределение приблизилось к нормальному.

____________________Компьютерная психодиагностика____________________

Надежность теста

Вей шя^о^^'-^^^н^^я^о^^с^х

^} испытаний и устойчивость теста по отношению к разнообразным источникам помех (шумовых, случайных факторов обследования).

В осно^^н^у^1н^^Те^т^с^^еор^Г грешностей измерения, полностью заимствованная из физики. Считается, что тест - такой же измерительный прибор, как вольтметр, термометр или барометр. Результаты, которые он показывает, зависят не только от величины измеряемого свойства у испытуемого, но также и от самой процедуры измерения («качества» прибора, действий экспериментатора, внешних помех и т. д.).

В связи с этим постулируется следующее утверждение. Любое измеряемое психическое свойство испытуемого (например, «экстраверсия», «тревожность» и пр.) имеет «истинный» показатель, а показания по тесту отклоняются от «истинного» на величину случайной погрешности. Поэтомуэмпирическиполученнаяоценкапотесту^представляетсякак сумма истинной оценки Г_ши ошибки измерения е: К= У_ы+е.

Для анализа надежности вводится понятие «параллельных тестов» -этотесты,водинаковоймереизмеряющиеданноесвойствопосредством одних и тех же действий и операций, при этом параллельными тестами могут быть и параллельные формы, и повторные исследования испытуемых одной и той же методикой. Если допустить, что измеряемые свойства испытуемых мало изменяются во времени, а ошибки полностью случайны и несистематичны, то параллельные тесты дают результаты с одинаковыми средними значениями, среднеквадратическими отклонениями, интеркорреляциями и корреляциями с другими переменными.

Коэффициент надежности ^определяется как корреляция параллельных тестов, которая, в свою очередь, равна отношению

2
п _ °й(
^КУУ 2 ,

где с_и - дисперсия истинной оценки, а о. - дисперсия эмпирической оценки.

Корреляция параллельных тестов с какой-либо другой переменной ^опредeляeтcя соотношением

Куч = Ктг т[Щу , где Л** — корреляция истинных оценок У_ы с переменной 2.

Глава 1. Психометрическая парадигма конструирования тестов и шкал

Коэффициент надежности связан со стандартной ошибкой измерения (4- среднеквадратичное отклонение измерения ё) следующим образом:

⁸Е =Ьут11-Куу ■

Отсюда следует, что при увеличении коэффициента надежности уменьшается ошибка измерения.

Корреляция эмпирических и истинных оценок К_пы называется индексом надежности и определяется соотношением:

^КУуШ = ^уу~ .

Существует три основных подхода к оценке надежности тестов: тест-ретест надежность, надежность параллельных форм теста и надежность как гомогенность тестов.

Тест-ретест надежность. Если тест проводить много раз на одних и тех же испытуемых, то среднее для каждого испытуемого будет характеристикой истинной величины параметра. Отсюда выводится понятие ретестовой надежности: чем теснее коррелируют результаты начального и повторного проведений теста, тем он надежнее. Тест-ретест надежность называют также надежность-устойчивость. Таким образом, ретестовая надежность - это надежность теста, которая устанавливается путем проведения повторного тестирования на той же выборке испытуемых, которая проходила первое тестирование, с последующим расчетом коэффициента корреляции между двумя показателями.

Надежность параллельных форм теста. Коэффициент надежности равен корреляции параллельных форм теста. В данном случае ошибки измерения связаны с различиями в характере действий и операций, присущих параллельным формам теста. Высокое значение коэффициента корреляции указывает не только на высокую надежность результатов сравниваемых тестов, но и на эквивалентность содержания этих тестов. Поэтому коэффициент надежности для параллельных форм теста носит еще одно название - эквивалентная надежность.

Надежность как однородность тестов. Тест может быть разбит на части, каждая их которых рассматривается как отдельный параллельный тест. В этом случае надежность оценивается путем вычисления корреляций частей или элементов теста. Такой подход справедлив для оценки тестов, задания которых являются внутренне согласованными. Наиболее распространенная процедура расщепления теста на две части - разбиение тестовых заданий на четные и нечетные. Для определения надежности целого теста применяют формулу Спирме-на-Брауна:

Компьютерная психодиагностика

К -²-*

*УУ - 1+Л ’

где R - корреляция между половинами теста.

Тест, построенный на основе внутренней согласованности тестовых заданий, можно расщеплять на части разными способами. В этом случае для оценки надежности используется коэффициент Кронбаха

а=Ь

V ²

где а - обозначение коэффициента Кронбаха; к - число заданий теста; а? - дисперсия/-го пункта теста; о1 - дисперсия целого теста.

Если ответы на каждый пункт теста являются дихотомическими переменными, то применяется аналогичная коэффициенту Кронбаха формула Кьюдера-Ричардсона

КЯ20 =

к-1

Хм/

1~*

где КЯ20 - традиционное обозначение данного коэффициента надежности; р, - доля первого варианта ответа на /-й вопрос; д, = (1 - р,) -доля второго варианта ответа на /-й вопрос.

В литературе приводятся и другие коэффициенты для однородных тестов [Общая психодиагностика, 1987; Дюк, 1994; Клайн, 1994].

Надежность тестовых заданий. Эта надежность определяется как мера стабильности результатов по данному заданию при проведении повторного тестирования, то есть от устойчивости ответов испытуемых на отдельные тестовые задания. Для проверки этой устойчивости вычисляется коэффициент корреляции ответов испытуемых на проверяемый пункт с ответами при повторном тестировании. Для дихотомических пунктов обычно используется коэффициент ср и пункт считается недостаточно устойчивым, если ср < 0,5

Ьс-аа

ф = —1

Глава 1. Психометрическая парадигма конструирования тестов и шкал

Валидность теста

^} ния чего предназначен.

каждый из них соответствует разным аспектам этого значения.

Очевидная валидность - это характеристика такого теста, о котором складывается впечатление, что он измеряет именно то, что подразумевается, особенно с точки зрения испытуемого. Очевидная валидность не имеет никакого отношения к истинной валидности, и важна лишь потому, что помогает добиться сотрудничества с испытуемым [Клайн, 1994].

Эмпирическая валидность - это совокупность характеристик теста, полученных с помощью сравнительного статистического анализа. Показатель эмпирической валидности выражается количественной мерой статистической связи между результатами тестирования и внешними по отношению к ним критериям оценки диагностируемого свойства [Дюк, 1994]. В качестве внешних критериев могут выступать экспертные оценки, «жизненные» критерии, показатели других тестов, отдаленные по времени критерии и т. д.

Эмпирическая валидность чаще всего выражается коэффициентом корреляции результатов тестирования Yс критериальным показателем Z.Известно,чтокорреляциядвухпеременных зависит от их надежности:

где Я_шш - корреляция истинных значений теста и критерия; Я„-надежность теста; К_гг- надежность критерия.

Эта формула показывает, что максимально возможная валидность ограничена величинами надежности теста и внешнего критерия.

Содержательная валидность - это характеристика тестов достижений, указывающая, что тест должен охватывать всю область изучаемого поведения.

Конструктная валидность - это валидность теста по отношению к психологическому конструкту - научному понятию или совокупности понятий, лежащих в основе конструируемого теста. Для установления конструктной валидности необходимо полное описание измеряемой переменной, выдвижение системы гипотез о ее связях с другими переменными, а также эмпирическое (статистическое) подтверждение этих гипотез.

____________________Компьютерная психодиагностика____________________

Распространенным приемом определения конструктной валидно-сти теста является его соотнесение с известными методиками, отражающими другие конструкты, предположительно как связанные, так и не зависимые от данного. При этом делается попытка априорно предсказать наличие или отсутствие связи между ними. Тесты, которые по предположению высоко коррелируют с валидизируемым тестом, называются конвергирующими, а не коррелирующие - дискриминант-ными. Конструктная валидность может считаться удовлетворительной, если коэффициенты корреляции валидизируемого теста с группой конвергирующих тестов статистически значимо выше коэффициентов корреляции с группой дискриминантных тестов. Подтверждение совокупности ожидаемых связей составляет важный круг сведений конструктной валидности и в зарубежной литературе носит также название «предполагаемой валидности».

Валидность тестовых заданий может устанавливаться с помощью факторного анализа, позволяющего на основе выявляемых латентных свойств определять меру влияния каждого латентного свойства на результаты тестирования.

2015-11-11

1867

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 1 2 345 6 7 8 9 10 Следующая ⇒

Обсуждение в статье: З.1. Стандартизация теста

Обсуждений еще не было, будьте первым... ↓↓↓