Определение норм для теста.

2018-07-06

852

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 6 7 8 9 101112 13 14 15 Следующая ⇒

На этапе создания теста формируется некоторая группа испытуемых, на которой проводится данный тест. Средний результата выполнения этого теста в данной группе принято считать нормой. Средний результат – это не единственное число, а диапазон значений (например, значений – 43, 44, 45 баллов). Существуют определенные правила формирования такой группы испытуемых, или, как ее иначе называют, выборки стандартизации.

Правила формирования выборки стандартизации:

1. Выборка стандартизации должна состоять из респондентов, на которых в принципе ориентирован данный тест, т.е. если создаваемый тест ориентирован на детей (например, тест Амтхауэра), то и стандартизация должна происходить на детях заданного возраста.

2. Выборка стандартизации должна быть репрезентативной, т.е. достаточно точно (адекватно) отражать характеристики того контингента испытуемых, который обследуется. Она должна представлять собой уменьшенную модель популяции по таким параметрам, как возраст, пол, профессия, распределение и т.д. Под популяцией (или контингентом) понимается, например, группа дошкольников 6-7 лет, руководителей, подростков и т.д.

Распределение результатов, полученных при тестировании испытуемых выборки стандартизации, можно изобразить с помощью графика - кривой нормального распределения. Этот график показывает, какие значения первичных показателе входят в зону средних значений (в зону нормы), а какие выше и ниже нормы.

Чаще всего в руководствах к одному и тому же тесту можно встретить выражения нормы не в виде сырых баллов, а в виде стандартных производных показателей. То есть нормы к данному тесту могут быть выражены в виде Т-баллов, процентилей, стандартных IQ и др. Перевод сырых значений (первичных показателей) в стандартные (производные) делается для того, чтобы результаты, полученные по разным тестам, можно было сравнить между собой.

Производные показатели получаются путем математической обработки первичных показателей. Первичные показатели по разным тестам нельзя сравнивать между собой по причине того, что тесты имеют различное внутреннее строение. Например, IQ, полученный с помощью теста Векслера, нельзя сравнивать с IQ, полученным с помощью теста Амтхауэра, так как эти тесты исследуют разные особенности интеллекта и IQ как суммарный показатель по субтестам складывается из показателей разных по строению и содержанию субтестов.

В заключение обсуждаемого вопроса следует отметить, что «любая норма, в чем бы она не выражалась, ограничивается конкретной совокупностью людей, для которых она вырабатывалась… Применительно к психологическим тестам они (нормы) никоим образом не абсолютны, не универсальны и не постоянны. Они просто выражают выполнение теста испытуемыми из выборки стандартизации».

Валидность.

Все методы психологической диагностики, начиная от стандартизированных и заканчивая нестандартизированными, направлены на измерение свойств личности и особенностей интеллекта.

Каждый метод предназначен для измерения какого-либо свойства, что и определяет содержание этого метода. Сведения о степени, в которой тест действительно измеряет то, для чего он предназначен, входит в понятие валидности. Например, методика «Кольца Ландольта» предназначена для измерения таких свойств внимания, как концентрация, переключаемость. В психологии существуют определения понятий концентрации внимания и переключаемости. Считается, что выводы, сформулированные на основании результатов тестирования с помощью «Колец Ландольта» вполне отражают содержание определений этих свойств внимания. Значит, эта методика действительно измеряет то, для чего она предназначена.

Таким образом, общее понятие валидности – это характеристика степени, в которой тест измеряет то, для измерения чего он предназначен (т.е. соответствие теста цели тестирования).

Помимо общего значения в понятие валидности входят многие другие сведения.

Существуют разные типы и виды валидности, в которых отражены эти сведения. Ниже приведены некоторые типы валидности.

1. Валидность "по содержанию".Этот прием используется в основном в тестах
достижений. Обычно в тесты достижений включается не весь материал, который
прошли учащиеся, а какая-то его небольшая часть (3—4 вопроса). Можно ли быть
уверенным в том, что правильные ответы на эти немногие вопросы свидетельствуют об
усвоении всего материала. На это и должна ответить проверка валидности по
содержанию. Для этого проводится сопоставление успешности по тесту с экспертными
оценками учителей (по данному материалу). Валидность "по содержанию" также
подходит к критериально-ориентированным тестам. Иногда этот прием называют
логической валидностью.

2.Практическая валидность характеризует тест не столько со стороны его психологического содержания, сколько с точки зрения его ценности с отношении достижения определенной практической цели (прогнозирования, диагностики). Выделяют следующие подтипы практической валидности: прогностическая и совпадающая.

Тест с высокой прогностической валидностью позволяет сделать прогноз, насколько успешно испытуемый будет выполнять определенную деятельность впоследствии.

Тест с высокой совпадающей валидностью позволяет ответить на вопрос: «Какова вероятность того, что индивид Х обладает свойством У в настоящий момент времени?»

3. Валидность по объему отражает степень, в какой объем теста выборочно репрезентирует тот класс ситуаций или учебного материала, относительно которого должны быть сделаны выводы. Валидность по объему показывает, в каком объеме, в какой мере психическое свойство отражено в методике.

4. Оценочная валидность выражает степень корреляции (соответствия) между показателями, полученными испытуемыми по данному методу, и оценками измерительного свойства со стороны экспертов. Например, при валидации (проверке теста на валидность) тестов умственных способностей школьников в качестве экспертов обычно выступают учителя.

5. Внешняя валидность означает, что впечатление, которое создается у неспециалистов при знакомстве со стимульным материалом и сугубо внешней стороной тестирования, соответствует заявленному содержанию метода.

Эффективная методика может быть создана, если она прошла все этапы валидации, то есть когда приняты меры для придания ей как содержательной валидности, так и практической.

Надежность.

Надежность оценивает согласованность показателей, полученных на тех же самых испытуемых при повторном тестировании тем же самым тестом или его эквивалентной формой.

Повторное применение надежных методик дает сходные оценки. При этом в определенной мере могут совпадать как сами результаты, так и порядковое место (ранг), занимаемое испытуемым в группе. И в том, и в другом случае при повторении опыта возможны некоторые расхождения, но важно, чтобы они были незначительными, в пределах одной группы. Таким образом, можно сказать, что надежность методики — это такой критерий, который говорит о точности психологических измерений, т.е. позволяет судить о том, насколько внушают доверие полученные результаты.

В качестве критериев точности можно отметить следующие:

1. При повторном применении метода к тем же самым испытуемым в одних и тех же условиях через определенный интервал времени результаты обоих тестирований существенно не различаются между собой.

2. Действия случайных посторонних факторов не оказывают существенного влияния на результаты тестирования. В качестве посторонних факторов можно назвать следующие: эмоциональное состояние и утомление, если они не входят в круг исследуемых характеристик, температура, освещенность помещения и др. Такие посторонние случайные факторы еще называют факторами нестабильности измерительной процедуры.

3. При повторном применении метода к тем же самым испытуемым через определенный интервал времени в измененных условиях результаты обоих тестирований существенно не различаются между собой. Под измененными имеется в виду следующие условия: другой экспериментатор, состояние респондента и др.

Существуют различные методы оценки надежности:

1) Ретестовый метод – повторное тестирование выборки испытуемых одним и тем же тестом через определенный интервал времени при одних и тех же условиях. Временной интервал зависит от возраста (например, у маленьких детей изменения могут произойти в течение одного месяца), а также событий, происходящих с испытуемым в жизни.

Схематично это выглядит следующим образом:

ТЕСТ – ИНТЕРВАЛ - РЕТЕСТ

За индекс надежности принимается коэффициент корреляции между результатами двух тестирований. Полученная высокая корреляция может быть результатом тренированности испытуемого на заданиях подобного типа; низкая корреляция может быть результатом произошедших изменений с испытуемым, а также может свидетельствовать о ненадежности теста.Методика признается надежной, когда полученный коэффициент не ниже 0,75—0,85. Лучшие по надежности тесты дают коэффициенты порядка 0,90 и более.

2) Надежность взаимозаменяемых форм – повторное тестирование выборки испытуемых параллельной формой теста через минимальный интервал времени при одних и тех же условиях.

ТЕСТ А – ИНТЕРВАЛ - ТЕСТ А^,

За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя параллельными формами теста. Высокий коэффициент корреляции и большой интервал между двумя испытаниями свидетельствует о высокой надежности теста.

Возможный обман со стороны испытуемого, его искушенность, события, произошедшие в интервале между тестированиями, не оказывают особого влияния (как в ретестовом методе) на степень надежности теста. Если фактор тренировки снижен при тестировании параллельными формами, то эффект переноса принципа заданий часто имеет место. Эффект переноса следует учитывать при построении параллельных форм.

Требования к построению параллельных форм:

- параллельные формы должны быть независимо построенными тестами, но отвечать одним и тем же требованиям;

- должны содержать одинаковое количество заданий со сходной степенью трудности;

- эквивалентность параллельных форм необходимо проверять ретестовым методом.

3) Метод расщепления состоит в том, что тест разбивают на две независимые части. Респондент выполняет задания этих двух частей в течение одного сеанса с получением двух результатов: например, тест Равена содержит две части: четные и нечетные задания. За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя этими частями. Он называется коэффициентом внутренней согласованности теста.

Всвою очередь, тест может быть надежен, но не валиден. Это означает, что он измеряет какое-то свойство очень точно, но какое именно – остается под вопросом. В такой ситуации необходимо более точная валидация теста, как содержательная, так и практическая.

Литература:

2018-07-06

852

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 6 7 8 9 101112 13 14 15 Следующая ⇒

Обсуждение в статье: Определение норм для теста.

Обсуждений еще не было, будьте первым... ↓↓↓