Стандартизация психодиагностических методик
Диагностическая методика отличается от любой исследовательской тем, что она стандартизирована.
Стандартизация- единообразие процдуры проведения и оценки выполнения теста. Единые требования к процедуре. Унификация инструкций, бланков, способов регистрации, условий проведения оценки. Вначале надо её (методику) провести на большой репрезентатимвной выборке для разработки критериев оценки.
Процентиль- первичный результат которых ниже данного первичного показателя. Указывает на долю от общего числа членов группы.
Выборка стандартизации- часть или подмножество совокупности.
Стандартизация (по Анастази) –это единообразие процедуры проведения и оценки выполнения теста. Таким образом, стандартизация рассматривается в двух планах: как выработка единых требований к процедуре эксперимента и как определение единого критерия оценки результатов диагностических испытаний.
Стандартизация процедуры эксперимента подразумевает унификацию инструкций, бланков обследования, способов регистрации результатов, условий проведения обследования.
Требования к проведению эксперимента:
инструкции следует сообщать испытуемым одинаковым образом, как правило, письменно; в случае устных указаний они даются в разных группах одними и теми же сл-вами, понятными для всех, в одинаковой манере;
ни одному испытуемому не следует давать никаких преимуществ перед другими;
в процессе эксперимента не следует давать отдельным испытуемым дополнительные пояснения;
эксперимент с разными группами следует проводить в одинаковое по возможности время дня, в сходных условиях;
временные ограничения в выполнении заданий для всех испытуемых должны быть одинаковыми и так далее.
Другим наиболее важным этапом в стандартизации методики является выбор критерия, по которому следует проводить сравнение результатов диагностических испытаний, поскольку диагностические методики не имеют заранее определённых стандартов успешности или неудачи в их выполнении.
Стандартизация методики осуществляется путем ее проведения на большой репрезентативной выборке такого типа, для которого методика предназначена. Относительно этой группы испытуемых вырабатываются нормы, указывающие не только средний уровень выполнения, но и относительную вариативность выше и ниже среднего уровня.
Для выполнения статистической нормы применяются приемы математической статистики х ± σ (х – среднее арифметическое, σ — станд. отклонения). x ± 5 σ
Процентиль –это процентная доля индивидов из выборки стандартизации.
При разработке и применении любой точки отсчета следует обратить внимание на выборку испытуемых. В математической статистике различают генеральную совокупность (популяция) и выборку. Всякая большая совокупность людей относительно которой мы собираемся делать выводы называется генеральной совокупностью.
Выборка –это часть, или подмножество, совокупности. Проводить исследования для популяции не принято. Обычно из нее выделяется группа людей – выборка стандартизации, которая реально подвергается тестированию, и с ее помощью оценивается генеральная совокупность. Чтобы оценки носили достоверный характер выборка должна быть репрезентативна, представительна для рассматриваемой популяции, то есть ее вероятные свойства должны совпадать или быть близкими к свойствам генеральной совокупности.
Один из способов обеспечения репрезентативности выборки является ограничение популяции (пол, возраст, профессия, здоровье, социально-эконом. статус и др.). Такая популяция определяется как специфическая.
Отбор испытуемых в выборку стандартизации
Определение популяции с выделением в ее структуре переменных значимых, малозначимых (возраст, пол)
Популяция делится на части в зависимости от значимых переменных.
Испытуемые отбираются в случайном порядке и пропорционально численности каждой значимой части совокупности. Минимальный порог выборки – 200 человек.
Статистическая норма –критерий, по которому проводят сравнение результатов диагностических методик.
Возрастная норма –как показатель, который появляется в тестах Бене-Симона (норма – сделать все задания).
Внешний критерий –критерий выполнения.
Процентиль –это процентная доля индивидов из выборки стандартизации, первичный результат которому ниже данного первичного показателя. Процентили указывают на относительное положение индивида в выборке стандартизации. Чем ниже процентиль, тем хуже позиция индивида. Процентили нельзя смешивать с обычными процентными показателями, которые являются первичными показателями и представляют собой процент правильно выполненных заданий, тогда как процентиль – это производный показатель, указывающий на долю от общего числа членов группы.
Источник
Требование стандартизации психодиагностических методик
ЛЕКЦИЯ № 9. Надежность психодиагностических методик
1. Определение. Факторы, влияющие на надежность методики. Стандартная ошибка измерения. Надежность измерения. Понятие о методе измерения ретестовой надежности
Надежность – одно из трех главных психометрических свойств любой измерительной психодиагностической методики (теста).
Надежность – это помехоустойчивость теста, независимость его результата от действия всевозможных случайных факторов. К числу таких факторов относятся:
1) разнообразие внешних материальных условий тестирования, меняющихся от одного испытуемого к другому (времени суток, освещенности, температуры в помещении, наличия посторонних звуков, отвлекающих внимание и т. п.);
2) динамичные внутренние факторы, по-разному действующие на разных испытуемых в ходе тестирования (время так называемой врабатываемости – выхода на стабильные показатели темпа и точности действий после начала тестирования, скорость наступления утомления и т. п.);
3) информационно-социальные обстоятельства (различная динамика в установлении контакта с психологом или лаборантом, проводящим тестирование; возможное наличие других людей в помещении; наличие предыдущего опыта знакомства с данным тестом; наличие какого-то знания и отношения к тестам вообще и т. п.).
Разнообразие и изменчивость этих факторов так велики, что они обусловливают появление у каждого испытуемого непрогнозируемого по размерам и направлению отклонения измеренного тестового балла от истинного тестового балла (который можно было бы, в принципе, получать в идеальных условиях). Средняя относительная величина этого отклонения определяется как стандартная ошибка измерения (Se). Величина ошибки измерения указывает на уровень неточности или ненадежности тестовой шкалы.
Ошибка измерения (Se) и надежность измерения (R) согласно общепринятой психометрической теории связаны следующей формулой:
R = 1 – Se 2 / Sx 2 , (1),
где Sx– дисперсия тестовых показателей Х.
Формула (1) является чисто теоретической, и на ее основе нельзя подсчитать надежность теста, так как величина Se оказывается также неизвестной величиной. Поэтому на практике применяют корреляционные методы. Самый известный их них – метод перетестирования («тест-ретест») или метод измерения ретестовой надежности. На одной и той же выборке испытуемых (не менее 30 человек, участвующих в пилотажном психометрическом экспериментальном исследовании) проводят первое тестирование Х, а затем повторное тестирование Y. Интервал, как правило, 2 недели, что гарантирует забывание вопросов теста.
Затем для двух рядов значений Х и Y подсчитывается, например, линейный коэффициент корреляции, или ранговый коэффициент корреляции:
где Sx, Sy – стандартные отклонения X и Y, t;
Cov (X, Y) – ковариация двух переменных X и Y.
Для сути теории надежности методов важна возможность определить ошибку измерения, после того как подсчитана корреляция «тест – ретест» по формуле (3), полученной путем простого преобразования формулы (1):
Se = Sx ? V1 – R. (3)
Таким образом, если стандартное отклонение в тесте составило 10 очков (среднее отклонение, которое в среднем допускают испытуемые от среднего балла для выборки), а корреляция «тест – ретест» оказалась равной лишь 0,5, то ошибка измерения оказывается очень большой:
Оказывается, что ошибка измерения перекрывает большую часть разброса тестовых показателей, так как истинный балл по тесту может отклоняться от измеренного балла на целых 7 очков! И, если испытуемый набрал на 6 очков больше, чем средний испытуемый, мы не можем с достаточной уверенностью (статистической достоверностью) говорить о том, что он значимо превзошел среднего испытуемого, так как это отклонение оказывается в пределах стандартной ошибки измерения.
Таким образом, низкая корреляция результатов теста между первым и повторным тестированием говорит о том, что случайные факторы существенно искажают результаты теста. Это значит, что тест не обладает необходимой помехоустойчивостью и его нельзя использовать как измерительный инструмент.
Показатель надежности R, который принято считать достаточно высоким, равен или превышает 0,95. Хотя в личностных тестах часто пользуются значительно менее надежными тестами с показателями 0,8–0,9.
Метод измерения ретестовой надежности пригоден только для психических свойств, стабильных во времени. Надежность тестов на психические состояния и динамические установки личности нельзя проверить таким образом. В этом случае применяют различные методы расщепления теста на отдельные пункты.
Надежность – характеристика методики, отражающая точность психодиагностических измерений, а также устойчивость результатов теста к действию посторонних случайных факторов. Надежность и валидность являются важнейшими характеристиками методики как инструмента психодиагностического исследования. Любое изменение ситуации исследования усиливает влияние одних и ослабляет воздействие других факторов на результат теста. Общий разброс (дисперсию) результатов тестового обследования можно, таким образом, представить как результат влияния двух групп причин: изменчивости, присущей самому измеряемому свойству, и факторов нестабильности измерительной процедуры.
В самом широком смысле надежность теста – это характеристика того, в какой степени выявленные у испытуемых различия по тестовым результатам являются отражением действительных различий в измеряемых свойствах и в какой мере они могут быть приписаны случайным ошибкам.
В более узком, методическом смысле под надежностью понимают степень согласованности результатов теста, получаемых при первичном и вторичном его применении у одних и тех же испытуемых в различные моменты времени с использованием разных (но сопоставимых по характеру) наборов тестовых заданий или при других изменениях условий обследования.
Разновидностей характеристик надежности теста так же много, как условий, влияющих на его результаты. Наиболее широкое практическое применение находит несколько типов характеристик надежности: надежность ретестовая, надежность параллельных форм, надежность частей теста.
2. Стандартизация процедуры обследования. Взаимосвязь надежности и валидности
Важнейшим средством повышения надежности психодиагностических методик является стандартизация процедуры обследования. При строгой регламентации процедуры обследования (обстановки и условий работы испытуемого, характера инструкции, временных ограничений, способов и особенностей контакта с испытуемым, порядка предъявления элементов методики, получения первичных оценок и т. д.) существенно уменьшается дисперсия ошибки, повышается надежность теста.
Если исходить из широкого понимания надежности как отражения в результате исследования удельного веса измеряемого параметра и совокупности посторонних факторов, то можно усмотреть определенную связь надежности с другой важнейшей комплексной характеристикой психодиагностической методики – валидностью.
Надежность – устойчивость процедуры относительно объектов исследования. Валидность – однозначность, устойчивость относительно измеряемых свойств объекта, т. е. предмета измерения. Устойчивость теста относительно объектов (испытуемых) является необходимым, но недостаточным условием его устойчивости относительно измеряемых свойств объектов. Следовательно, надежность является необходимым, но недостаточным условием валидности. Это означает, что валидность теста не может качественно и количественно превышать надежность. Данное соотношение нельзя, однако, трактовать как указание на прямую пропорциональную связь характеристик валидности и надежности. Повышение надежности отнюдь не сопровождается обязательным повышением валидности. Например, у теста-опросника из одного вопроса внутренняя согласованность предельна, однако валидность у него минимальна.
3. Надежность параллельных форм. Сущность, достоинства и недостатки
Надежность параллельных форм – характеристика надежности психодиагностической методики с помощью взаимозаменяемых форм теста. При этом одни и те же испытуемые в выборке определения надежности обследуются вначале с использованием основного набора заданий, а затем – с применением аналогичных дополнительных наборов. Коэффициент надежности по типу надежности параллельных форм может быть определен и другим способом, а именно: испытуемые делятся примерно на равные группы, затем одной из них предлагается форма А теста, а другой – форма Б. Через определенное время (обычно не более недели) проводится повторное тестирование, но в обратном порядке.
Такая процедура обследования лишена значительной части недостатков способа определения ретестовой надежности. Так как в параллельной форме используется другой по содержанию материал, возможность тренировки и запоминания отдельных решений уменьшается. Важнейшим преимуществом данного метода является сокращение временного интервала перед повторным обследованием. Основным показателем надежности параллельных форм является коэффициент корреляции между результатами первичного и повторного обследований, который позволяет оценить как временную стабильность теста (собственно надежность), так и степень соответствия результатов обеих форм теста. Если формы применяются непосредственно одна за другой, то корреляция отражает их взаимозаменяемость.
Отношение между параллельными формами теста имеет сложный характер. Оба набора заданий должны не только отвечать одним и тем же требованиям, измеряя идентичные показатели и давая сходные результаты, но вместе с тем быть относительно независимыми друг от друга. На практике эта задача осуществима далеко не для всех тестовых заданий (в особенности это касается личностных методик, опросников), что существенно ограничивает сферу применения надежности параллельных форм. Другим недостатком характеристики надежности по типу надежности параллельных форм является возможность усвоения испытуемым принципа решения, общего для основной и параллельной форм. Таким образом, в случае оценки надежности параллельных форм влияние тренировки и навыка, приобретаемого при повторном обследовании, если и снижается по сравнению с характеристикой надежности ретестовой, однако не устраняется полностью.
4. Надежность частей теста, ее определение методом расщепления. Уравнение Спирмена – Брауна. Определение коэффициента надежности с помощью формул Дж. Фланагана и Рюлона
Надежность частей теста – характеристика надежности психодиагностической методики, получаемая путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных пунктов (заданий) теста. Наиболее простым и распространенным способом определения надежности частей теста является метод расщепления, суть которого заключается в выполнении испытуемым заданий двух равноценных частей теста. Обоснованием метода является вывод о том, что при нормальном или близком к нормальному распределении оценок по полному тесту выполнение любого случайного набора из частей теста даст аналогичное распределение (при условии, что части однородны по характеру заданий, по отношению к тесту в целом).
Для оценки надежности методом расщепления выбирают две эквивалентные по характеру и степени трудности группы задач. Разделение объема заданий теста на сопоставимые части достигается:
1) распределением заданий на четные и нечетные (в том случае, если задания в тесте строго ранжированы по степени субъективной трудности);
2) распределением пунктов по принципу близости или равенства значений индексов трудности. Такой принцип разделения пригоден для тестов достижений, в которых обязателен ответ испытуемых на все пункты;
3) распределением задач по времени решения каждой из частей (для тестов скорости).
Для испытуемых в выборке определения надежности (раздельно для каждой из частей теста) вычисляются оценки успешности решений, среднеквадратические отклонения первого и второго рядов оценок и коэффициенты корреляции сравниваемых рядов. Естественно, эти коэффициенты будут характеризовать надежность лишь половины теста.
Уравнение Спирмена – Брауна отражает влияние изменения количества заданий на коэффициент надежности теста:
rt = nr’ t / 1 + (n – 1) r’ t,
где rt – коэффициент надежности для полного объема заданий, r’ t – его значение после изменения числа заданий, n – отношение нового числа заданий к первоначальному (если число заданий полного теста – 100, а его части, полученной методом расщепления на половины, – 50, то n = 0,5).
Отсюда для полного теста:
Приведенные формулы справедливы для случаев равных стандартных отклонений обеих половин теста (?xl = ?х2). Если ?xl отличается от ?х2, для определения коэффициента надежности применяется формула Фланагана:
При определении rt целого теста можно воспользоваться формулой Рюлона:
rt = 1 – ? 2 ? / ? 2 x,
где ? 2 ? – дисперсия разностей между результатами каждого испытуемого по двум половинам теста,
? 2 x – дисперсия суммарных результатов.
В данном случае коэффициент надежности рассчитывается как доля истинной дисперсии результатов теста.
Разделение заданий теста на равноценные половины является лишь частным случаем надежности частей теста. Вполне возможно расщепление на три, четыре и более частей. В предельном случае число частей равно числу пунктов. При разделении всего набора заданий теста на любое количество групп для правильного определения надежности частей теста, как уже указывалось выше, должно соблюдаться требование равноценности таких групп. Поэтому при вычислении коэффициента надежности методом анализа внутренней согласованности отобранные задания теста должны быть в высокой степени однородны по содержанию и трудности (гомогенны). При гетерогенных задачах значения rt ниже истинных.
Характеристика надежности по типу надежности частей теста имеет серьезные преимущества по сравнению с надежностью ретестовой и надежностью параллельных форм главным образом благодаря отсутствию необходимости в повторном обследовании. Таким образом, снимается влияние многих посторонних факторов, в частности тренировки, запоминания решений и т. д. Это обстоятельство определяет широкое распространение методов характеристики надежности частей теста по сравнению с другими типами надежности. К недостаткам метода относится невозможность проверить устойчивость результатов теста спустя определенное время. Это требует комбинирования метода надежности частей теста с другими типами характеристики надежности психологической методики.
Источник
СТАНДАРТИЗАЦИЯ ПСИХОДИАГНОСТИЧЕСКИХ МЕТОДОВ
При разработке любой психодиагностической методики подразумевается, что она будет использоваться не разово, а многократно. Чтобы методика, результаты которой выражаются в том или ином числовом виде, могла быть применена впоследствии широким кругом специалистов-психологов, она должна быть стандартизирована. Стандартизацией психодиагностических методов называется процедура получения шкалы, позволяющей сравнивать индивидуальный результат по тесту с результатами большой группы испытуемых. Итогом такой работы являются так называемые тестовые нормы или таблицы пересчета первичных (“сырых”) данных в стандартные. В качестве точки отсчета, по отношению к которой можно оценивать степень выраженности того или иного психологического свойства, берется средний результат по большой группе испытуемых.
Обычная последовательность стандартизации психодиагностической методики состоит в следующем:
n Определяется генеральная совокупность, для которой предназначена методика, и из нее извлекается выборка.
n По результатам исследования выборки строится эмпирическое распределение, которое проверяется на соответствие его нормальному виду с помощью статистических критериев (например, критерия c 2 Пирсона или l Колмогорова-Смирнова, о которых речь пойдет ниже).
n Если распределение нормальное, то строится стандартизированная шкала. Если же распределение отличается от нормального контрастно, то следует либо изменить формулировки вопросов теста, либо более строго определить границы генеральной совокупности и выборки, либо принять другие меры, чтобы приблизить распределение полученных результатов к нормальному.
n Согласно полученной стандартизированной шкале выборка разбивается на группы, про которые известно, какой процент испытуемых они включают. При использовании методики в дальнейшем каждый новый индивидуальный результат можно будет быстро отнести в одну из групп и точно определить степень выраженности психологического свойства у испытуемого.
Наиболее распространенной является шкала Z-оценки (или Z-показателя, о котором уже было сказано выше).
В z-шкале центральным является среднее арифметическое значение, а от него вправо и влево откладываются значения через интервалы, пропорциональные величине стандартного отклонения (обычно интервалы равны 1s). Количество групп может быть 5 или 7. При 5 группах “средними” считаются результаты Z от -1 до 1 (группа 3, куда попадает 68.26% испытуемых) (Таблица3), результаты Z от 1 до 2 называются “выше среднего” (группа 4 — 13.59% испытуемых), при Z выше 2 — “высокими” (группа 5 — 2.28% испытуемых), при Z от -1 до -2 — “ниже среднего” (группа 2 — 13.59% испытуемых), Z ниже -2 — “низкими” (группа 1 — 2.28% испытуемых).
Номер группы | 1 | 2 | 3 | 4 | 5 |
Границы группы | от -¥ до Мх-2s | от Мх-2s до Мх-s | от Мх-s до Мх+s | от Мх-s до Мх-2s | от Мх+2s до +¥ |
Z-показатель | -¥ ¸-2 | -2 ¸ -1 | -1 ¸ +1 | +1 ¸ +2 | +2 ¸ ¥ |
Процент испытуемых в группе | 2.28 | 13.59 | 68.26 | 13.59 | 2.28 |
Правая граница в процентилях | 2.28 | 15.87 | 84.13 | 97.72 | 100.00 |
Результатом стандартизации являются таблицы пересчета “сырых” оценок в стандартные, где указываются границы групп в тех единицах, в которых непосредственно проводились тестовые измерения. Например, по некоторой методике оценивается скорость реакции водителя, результат представляется в баллах. В исследованной выборке Мх составляет 80, а стандартное отклонение равно 12. Границы выделенных групп получаются равными 56, 68, 92, 104 (Таблица 4).
Номер группы | 1 | 2 | 3 | 4 | 5 |
Интерпретация результата | Низкий | Ниже среднего | Средний | Выше среднего | Высокий |
Принцип отнесения в группу (если испытуемый набирает . баллов) | <56 | 56-67 | 68-92 | 93-104 | >104 |
В дальнейшем, при использовании методики, испытуемый набирает, к примеру, 95 баллов, и, глядя на таблицу, мы сразу же относим результат к группе “выше среднего”. При необходимости можно рассчитать Z-оценку испытуемого Z=(95-80)/10=1.5 и по таблице нормального распределения определить, что хуже него выполняют тест примерно 93.3% испытуемых, а лучше — лишь 6.7%.
Один из недостатков Z-шкалы — наличие отрицательных и дробных Z-показателей, что неудобно в работе. Для удобства Z-шкалу преобразуют по формуле y=az+b, где у — оценки новой шкалы, а и b — назначаемые новые стандартное отклонение и среднее. Наиболее популярна Т-шкала Мак-Колла, где а=10, b=50. Для перехода к Т-шкале надо рассчитать Z-оценки и перевести их в Т-шкалу по формуле T=10z+50. По этой шкале среднее арифметическое равно 50, границы групп 30, 40, 60, 70.
Используется также шкала Векслера, коэффициенты a и b в которой равны соответственно 15 и 100: IQ=15z+100. Кроме того, известна шкала Амтхауэра A=10z+100.
Другой недостаток шкалы Z-оценок и производных от нее шкал — то, что получается очень большое количество средних значений, а в крайние группы попадают совсем немногие испытуемые. Чтобы избежать этого недостатка, увеличивают число групп (шкалы стенов, станайнов, квантильные шкалы).
Название шкалы стенов происходит от английского словосочетания “standard ten” — стандартная десятка. По данной шкале выборка делится на 10 групп испытуемых, которым присваиваются баллы от 1 до 10. Среднее арифметическое принимается равным 5.5, стандартное отклонение примерно равно 2. Формула перехода к шкале стенов St=2z+5.5. Ось Х делится на интервалы, равные 0.5s. С учетом приведенных среднего арифметического и s можно рассчитать процент испытуемых, попадающий в каждую группу:
Стен | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
Процент испытуемых в группе | 2.28 | 4.40 | 9.19 | 14.98 | 19.15 | 19.15 | 14.98 | 9.19 | 4.40 | 2.28 |
Правая граница группы в процентилях | 2.28 | 6.68 | 15.87 | 30.85 | 50.0 | 69.15 | 84.13 | 93.32 | 97.72 | 100 |
Шкала станайнов (“стандартной девятки) по своей идее близка к шкале стенов. В целом, она строится аналогично шкале стенов, но взято число групп 9, чтобы избежать появления двузначных цифр (это удобно при машинной обработке данных).
Наряду со шкалой z-оценок и производных от нее шкал используются квантильные шкалы. Квантильная шкала получается путем разбиения выборки на равные по количеству испытуемых части. Чаще используется деление на 5 или 10 частей, то есть в выборке определяются квинтили или децили. В этом случае границы групп в долях сигмы можно подобрать по таблицам нормального распределения (Таблица 1 Приложения). При использовании квантильных шкал ось Х делится на части, равные по количеству испытуемых, но непропорциональные величине стандартного отклонения.
СТАТИСТИЧЕСКИЕ ГИПОТЕЗЫ
Гипотезой называется предположение, имеющее вероятностный характер, обладающее неопределенностью в отношении своей истинности. Гипотезы формулируются для того, чтобы представить в четком, лаконичном виде представления автора о том или ином факте, о его причинах.
В статистике гипотезы формулируются по поводу характеристик распределений, частот событий, положения событий относительно друг друга в ранжированном порядке и так далее. Подход к гипотезе в статистике четкий и в значительной мере формальный. Принято выделять статистические гипотезы двух основных видов — нулевую и альтернативную. Нулевая гипотеза, обозначаемая Н0, формулируется как гипотеза об отсутствии отличий: о сходстве двух распределений, о равенстве средних арифметических двух выборок и т.п. Нулевой она называется потому, что содержит 0: Х1-Х2=0, где Х1 и Х2 — значения признаков. Нулевая гипотеза утверждает, к примеру, что результаты выполнения задания экспериментальной группой и контрольной не различаются. Альтернативная гипотеза Н1 противоположна по смыслу нулевой, она утверждает наличие отличий в выборках, в параметрах их распределений и так далее (результаты экспериментальной группы значимо отличаются от результатов контрольной группы).
Две гипотезы — нулевая и альтернативная — образуют группу несовместных событий, то есть, если принимается одна из них, то другая отклоняется: принимая гипотезу об отсутствии различий Н0, мы отклоняем альтернативную гипотезу Н1, утверждающую, что различия есть, и, соответственно, наоборот.
Кроме этого, статистическая гипотеза может быть направленной или ненаправленной. Ненаправленная гипотеза фиксирует только наличие или отсутствие различий:
Н1 — ненаправленная альтернативная гипотеза: результаты экспериментальной группы значимо отличаются от контрольной,
Н0 — ненаправленная нулевая гипотеза: результаты экспериментальной группы значимо не отличаются от контрольной.
Направленная гипотеза говорит о наличии или отсутствии различий в определенном направлении:
Н1 — направленная альтернативная гипотеза: результаты экспериментальной группы выше (или, наоборот, ниже) результатов контрольной группы,
Н0 — направленная нулевая гипотеза: результаты экспериментальной группы не превышают результаты контрольной.
Общая схема классификации гипотез представляется в следующем виде:
Проверка гипотез производится с помощью статистических критериев. Статистический критерий — это правило, которое позволяет принимать истинную и отклонять ложную гипотезу с высокой степенью вероятности. Математически критерий представляет собой формулу, по которой мы рассчитываем некоторое число. Есть много разных видов статистических критериев, каждый из них разработан для решения определенного круга задач: так, по одному из них можно доказывать значимость различий средних арифметических значений двух выборок, по другому — согласованность изменения параметров двух распределений и так далее. Как правило, по формуле рассчитывается числовое значение критерия для имеющейся в нашем распоряжении выборки данных (полученное число называется эмпирическим значением критерия), и эмпирическое значение сравнивается с критическими значениями критерия, приведенными в таблицах. Различие между эмпирическим и критическим значениями критерия позволяет нам принять одну из статистических гипотез (нулевую или альтернативную) и отклонить другую.
Все статистические критерии делятся на параметрические и непараметрические. Параметрическими называются критерии, в формулу расчета которых входят параметры распределения (чаще всего это среднее арифметическое и стандартное отклонение). Непараметрические критерии, соответственно, параметры распределение в формулу расчета не включают, они оперируют только частотами или рангами. Каждая группа критериев имеет свои возможности, свои преимущества и недостатки, свои ограничения в использовании, которые будут рассмотрены при описании каждого из критериев. Параметрические методы следует применять при достаточно больших выборках (на практике обычно это означает больше 15 — 20 испытуемых), когда исследуемое распределение относится к нормальному типу. При небольшом количестве испытуемых, а также, если исследуемое распределение значимо отличается от нормального, следует воспользоваться непараметрическими методами. Непараметрические методы в психологии используются весьма широко, поскольку набрать достаточное количество испытуемых представляется возможным далеко не всегда.
В статистике за основной вариант принимается вариант рассмотрения истинности нулевой и ложности альтернативной гипотезы в генеральной совокупности. На практике это означает, что различия считаются незначимыми до тех пор, пока не доказано обраьное с высокой степенью вероятности. Применяя определенный критерий для принятия той или иной гипотезы по результатам обследования выборки, исследователь оказывается в следующей ситуации:
Состояние нулевой гипотезы
Такая ситуация складывается потому, что исследование проводится на выборке, а вывод делается об истинности гипотезы в генеральной совокупности. Понятно, что пока не изучена вся генеральная совокупность, нельзя дать окончательный ответ, а можно говорить лишь о большей вероятности одной гипотезы и меньшей другой и при этом указывать вероятность ошибки сделанного вывода.
Например, все признаки свидетельствуют о том, что должен пойти дождь. Нулевая гипотеза говорит нам об отсутствии различий между характеристикой сегодняшней погоды и характеристикой дождливого дня (низкое давление, низкая плотная облачность, высокая влажность). Альтернативная гипотеза утверждает, что различия есть, следовательно, дождя не будет.
Как видно из таблицы, ошибка первого рода состоит в том, что мы отклонили нулевую гипотезу, которая на самом деле верна. Вероятность ошибки 1-го рода обозначается a, соответственно вероятность правильного решения будет 1-a. Вероятность 1-a называется доверительной вероятностью. В каждом исследовании должна быть указана вероятность ошибки 1-го рода a (либодоверительная вероятность 1-a) в виде десятичной дроби (a=0.05), или в процентах (a=5%)
Ошибкой второго рода называется принятие по результатам выборочного исследования нулевой гипотезы, в то время как верна альтернативная. Обозначается вероятность ошибки второго рода b, соответственно, вероятность правильного решения в данном случае 1-b. Вероятность 1-b называется мощностью критерия. Мощность критерия характеризует его способность отклонять ложную гипотезу.
Вероятность ошибки первого рода a исследователь задает самостоятельно, либо ее можно рассчитать. Вероятность ошибки второго рода b обычно остается неизвестной, только в некоторых случаях она может быть оценена примерно. Оба вида ошибок тесно связаны между собой: если отклоняется истинная нулевая гипотеза, то принимается ложная альтернативная, или, если принимается ложная нулевая гипотеза, то отклоняется истинная альтернативная. Задавая низкий уровень вероятности ошибки a, мы тем самым резко увеличиваем вероятность ошибки второго рода b,и наоборот, повышая вероятность ошибки a,мы уменьшаемвероятность ошибки b. В каждом конкретном случае следует проанализировать, какая из ошибок несет в себе меньшую опасность, и после этого задать тот или иной уровень доверительной вероятности. При использовании статистических методов в психологии обычно ориентируются на вероятность a = 0.05 (доверительная вероятность 95%, то есть ошибка вероятна лишь в одном случае из 20), считая ее пограничной для принятия или отклонения альтернативной гипотезы. Если требуется принять альтернативную гипотезу с большей степенью надежности, то принимается a = 0.01 (доверительная вероятность 99%). Но если же надо обеспечить высокую степень надежности нулевой гипотезы, то есть с малую вероятность ошибки второго рода b,тоэто можно сделать, повышая вероятность ошибки первого рода a до значений 0.10, 0.20 или даже 0.50 (доверительная вероятность соответственно 90, 80 и 50%). Например, для ситуации с зонтом, как правило, более безболезненно пройдет ошибка второго рода b— зонт возьмем, а дождя не случится.
Дата добавления: 2018-05-12 ; просмотров: 761 ; Мы поможем в написании вашей работы!
Источник
Методики стандартизации (обзор)
Методики стандартизации являются средствами либо комплексом средств, при помощи которых выполняются принципы и достигаются функции стандартизации. Назначением стандартизации является урегулирование требований и методик для неоднократного применения.
В преддверии выполнения каждой функции в области стандартизации, производится анализ массива находящихся в распоряжении данных, производя выбор самых главных специфических показателей. В связи с этим простейшей методикой стандартизации считается систематизация, которая представлена назначением объектов изучения в согласованной последовательности. Целиком систематизация образует систему, удобную для применения. Целиком систематизация создаёт структура, которая очень удобна в использовании.
Систематизация является условием плавной трансформации к классификации. Классификация же в свою очередь представляет собой положение принципов, объектов и величин соответственно конкретным и более специфическим показателям, и содержится в научном и подтвержденном логически подходе. Итоги деятельности в сфере классификации продукции и сервиса отражён в российских классификаторах, которые контролируют состав производимого товара либо сервиса в области различных отраслей по разным классификационным разделам и определённым названиям продукции.
Не нашли что искали?
Просто напиши и мы поможем
Классификация и систематизация идут параллельно с кодировкой данных. Кодировка производится по типу группировки по соответственным условиям категорий или предметов категорий, в то же время назначение кода, позволяющее произвести изменения небольшим количеством обозначений либо ключами название данных предметов информации.
Кодирование предоставляет возможность распознавания информации более коротким путём либо с меньшим количеством усилий. Кодировка воздействует на увеличение продуктивной подготовки, сохранения, регистрации и отработки данных. Количество символов кода возможно выяснить соответственно его структуре, по той причине, что он имеет зависимость от количества кодируемых показателей.
Основные методики стандартизации
На сегодняшний день действует две методики стандартизации, которые осуществляются практически параллельно. Данными методиками являются селекция предметов стандартизации и симплификация данных предметов. Селекция является процедурой, состоящей в отборе предметов стандартизации, которые признаны соответствующими для дальнейшей разработки и производства на промышленных и прочих предприятиях.
Симплификацию является процедурой, которая состоит в организации и образовании конкретных предметов стандартизации, признанных соответствующими для дальнейшей разработки и производства на промышленных и прочих предприятиях.
Селекция и симплификация выполняются предварительно классификации и ранжированию предметов стандартизации, в том числе специализированному исследованию по перспективе использования предметов стандартизации и их сопоставлению. Типизация предметов стандартизации также является методикой стандартизации.
Типизация является процедурой в сфере разработки и внедрения образцов либо стандартных моделей, технологических требований, структур, а также видов документации. Избранные предметы стандартизации подвергаются техническим изменениям, с целью увеличения качественных показателей и концентрации на их универсальности.
Эффективность типизации обуславливается исполнением опробованных задач в сфере создания подготовительных производственных процессов продукции, а также уменьшения себестоимости данных процессов, упрощением обстоятельств эксплуатации. Оптимизация предметов стандартизации является внедрением основных приемлемых характеристик, а также обладанием комплексом значений выгодности и качественных параметров.
Методические основы стандартизации
Рассматривая методических основ стандартизации, необходимо обратить внимание, что к данным основам относится параметрическая стандартизацию, агрегатирование и унификация. Параметрическая стандартизация указывает параметры изделий в роли количественных характеристик их свойств. Более значительные показатели представляются свойствами, способными устанавливать предназначение продукции и сервиса.
Сложно разобраться самому?
Попробуй обратиться за помощью к преподавателям
К данным показателям относятся различные значения высоты, ширины, скорости, веса и прочие показатели. Данные показатели наделены способностью характеризовать производительность разнообразной техники и аппаратуры. Каждое изделие возможно охарактеризовать конкретным видом и рядом показателей. Параметрический ряд является комплектом указываемых величин показателей.
Стандартизация параметрических рядов заключается в:
- выборе и основе;
- целесообразности номенклатуры;
- количестве показателей.
Решение параметрических рядов возможно осуществить благодаря математическим методикам. К примеру, в сфере образования ряда обуви либо одежды возможно провести метрические исследования отдельно женской и мужской части общества, различных категорий по возрасту, проживающих на различной территории страны. Данная информация в дальнейшем обрабатывается благодаря методикам статистической математики.
Унификация изделий является процедурой в сфере целесообразного уменьшения числа видов агрегатов и деталей однотипных действий.
Основа единообразия заключается в классификации и ранжировании, симплификации, оптимизации и типизации по объектам изготовленной продукции. Единообразие концентрировано на усовершенствовании технических и эксплуатационных параметров, уменьшения издержек, увеличении автоматизирования производственных процессов.
Агрегатирование иметь своей составной частью методики разработки и внедрения аппаратуры, техники и механизмов из определённых типичных частей и деталей, унифицированных и неоднократно используемых при разработке разной продукции. Агрегатирование выполняется благодаря геометрической функциональной взаимной заменимости.
Источник
Стандартизация как требование к разработке психодиагностических методов
Разработка заданий, процедура проведения, обработка результатов теста осуществляется согласно определенным стандартным правилам.
Добиться объективности психологического теста можно при выполнении следующих условий:
единообразие процедуры проведения теста для получения сравнимых с нормой (см. ниже) результатов;
единообразие оценки выполнения теста;
определение нормы выполнения теста для сопоставления с ними показателей, полученных в результате обработки данных тестирования (см. здесь «третий этап стандартизации»).
Эти три условия называют этапами стандартизации психологического теста.
На этапе разработки теста, а также любого другого метода проводится процедура стандартизации, которая включает три этапа.
Первый этап стандартизации психологического теста состоит в создании единообразной процедуры тестирования. Она включает определение следующих моментов диагностической ситуации:
условия тестирования (помещение, освещение и др. внешние факторы). Очевидно, что объем кратковременной памяти лучше измерять (например, с помощью субтеста повторения цифровых рядов в тесте Векслера), когда нет внешних раздражителей, таких как посторонние звуки, голоса и т.д.
Содержание инструкции и особенности ее предъявления (тон голоса, паузы, скорость речи и т.д.). Например, в тесте «10 слов» каждое слово должно предъявляться через определенный интервал времени в секундах.
Наличие стандартного стимульного материала. Например, достоверность полученных результатов существенно зависит от того, предлагаются ли респонденту изготовленные самодельные карты Г.Роршаха или стандартные – с определенной цветовой гаммой и цветовыми оттенками. Временные ограничения выполнения данного теста. Например, для выполнения теста Равена взрослому респонденту дается 20 минут.
Стандартный бланк для выполнения данного теста. Использование стандартного бланка облегчает процедуру обработки.
Учет влияния ситуационных переменных на процесс и результат тестирования. Под переменными подразумевается состояние испытуемого (усталость, перенапряжение и т.д.), нестандартные условия тестирования (плохое освещение, отсутствие вентиляции и др.), прерывание тестирования.
Учет влияния поведения диагноста на процесс и результат тестирования. Например, одобрительно-поощряющее поведение экспериментатора во время тестирования может восприниматься респондентом как подсказка «правильного ответа» и др.
Учет влияния опыта респондента в тестировании. Естественно, что респондент, который уже не в первый раз проходит процедуру тестирования, преодолел чувство неизвестности и выработал определенное отношение к тестовой ситуации. Например, если респондент уже выполнял тест Равена, то, скорее всего, не стоит предлагать ему его во второй раз.
Второй этап стандартизации психологического теста состоит в создании единообразной оценки выполнения теста: стандартной интерпретации полученных результатов и предварительной стандартной обработки. Этот этап предполагает также сравнение полученных показателей с нормой выполнения этого теста для данного возраста (например, в тестах интеллекта), пола и т.д. (см. ниже).
Третий этап стандартизации психологического теста состоит в определении норм выполнения теста [10].
Нормы разрабатываются для различных возрастов, профессий, полов и др. Вот некоторые из существующих видов норм:
Школьные нормы | разрабатываются на основе тестов школьных достижений или тестов школьных способностей. Они устанавливаются для каждой школьной ступени и действуют на всей территории страны. |
Профессиональные нормы | устанавливаются на основе тестов для разных профессиональных групп (например, механиков разного профиля, машинисток и др.). |
Локальные нормы | устанавливаются и применяются для узких категорий людей, отличающихся наличием общего- признака – возраста, пола, географического района, социо-экономического статуса и др. Например, для теста Векслера на интеллект нормы ограничены возрастными рамками. |
Национальные нормы | разрабатываются для представителей данной народности, нации, страны в целом. Необходимость таких норм определяется конкретной культурой, моральными требованиями и традициями каждой нации. |
Наличие нормативных данных (норм) в стандартизованных методах психодиагностики является их существенной характеристикой.
Нормы необходимы при интерпретации тестовых результатов (первичных показателей) в качестве эталона, с которым сравниваются результаты тестирования. Например, в тестах интеллекта получаемый первичный показатель IQ соотносится с нормативным IQ (43, 44, 45 баллов в тесте Равена). Если полученный IQ респондента выше нормативного, равен 60 баллам (в тесте Равена), можно говорить об уровне развития интеллекта этого респондента как высоком. Если полученный IQ ниже, то низком; если полученный IQ равен 43, 44 или 45 баллам, то среднем.
Источник