Тема 1.
Предмет и методы психологии
Практика
Роберт Готтсданкер
|
Группа испытуемых |
Последовательность условий (уровней) |
1 |
ВБАГД (вообще любая) |
2 |
ДГАБВ (обратная ей) |
Это означает, что используется только две последовательности уровней. Как мы только что показали, они не обязательно должны быть АБВГДЕ и ЕДГВБА, где А означает наименьший уровень независимой переменной и Е — наибольший уровень. Здесь вообще могут быть разные варианты. Например, в другой части экспериментов Готтсданкера и Уэй, о котором говорилось выше, в одном блоке проб временной интервал между двумя стимулами оставался постоянным. Одной группе из четырех испытуемых предъявлялось пять блоков по 100 проб с временными интервалами в следующем порядке: 50, 100, 200, 400 и 800 мс (т. е. АБВГД). Порядок предъявления для другой группы из четырех испытуемых был: 800, 400, 200, 100 и 50 мс (т. е. ДГВБА).
Реверсивное уравнивание обеспечивает для каждого уровня одну и ту же среднюю позицию по двум последовательностям. Так, для двух показанных на диаграмме порядков ВБАГД и ДГАБВ уровень Д находится в позиции 5 и 1 при среднем 3; уровень Г — в позиции 4 и 2 при среднем, снова равном 3, и т. д. Это уравнивание обеспечивает хороший контроль влияния последовательности, только если эффект переноса однороден, т. е. если предполагается, что позиция 1 влияет так же на позицию 2, как позиция 2 на 3, или 3 на 4, или 5 на 6.
Однако эффект переноса может быть неоднороден, как это было показано в главе 2, применительно к внутрииндивидуальной схеме; тогда возникает серьезная проблема. Предположим, что существуют эффекты научения, которые равномерно улучшают ответ вплоть до третьей пробы, но не дальше. Для испытуемых, которым предъявляется последовательность ВБАГД, последние три уровня — А, Г и Д — будут в одинаково «выгодном положении». Для испытуемых, которым предъявляется обратная последовательность ДГАБВ, последние уровни — А, Б и В — будут также в одинаково «выгодном положении». Поэтому уровень А, находящийся в середине обеих последовательностей, будет иметь наибольшее преимущество, а В и Д — наименьшее. Если же эффект переноса связан с утомлением, а не научением, то теперь уровень в середине обеих последовательностей окажется в наиболее неблагоприятном положении.
Если эффект переноса различен в различных последовательностях, то величина переноса оказывается переменной, производящей смешение. В только что разбиравшейся последовательности ВБАГД величина переноса для В равна 0 (поскольку это первое условие), для Б — 1 и для А, Г и Д — 2 (поскольку перенос не увеличивается после третьей пробы). Аналогично для обратной последовательности — ДГАБВ — величины переноса будут: 0 для Д, 1 для Г и 2 для А, Б, В. Общий суммарный эффект переноса будет равен: 4 для А, 3 для Б и Г, 2 для В и Д. Из-за неэффективности в подобных случаях схемы реверсивного уравнивания исследователи обратились к схемам, которые обеспечивают лучший контроль. Они и будут сейчас описаны.
Для того чтобы избежать систематического смешения, возникающего при неоднородном переносе в схеме реверсивного уравнивания, можно использовать все возможные 296последовательности уровней, вместо двух. Такая схема с полным уравниванием для трехуровневого эксперимента выглядит следующим образом:
Группы испытуемых |
Последовательности |
1 |
АБВ |
2 |
АВБ |
3 |
БАВ |
4 |
БВА |
5 |
ВАБ |
6 |
ВБА |
Так, если бы в исследовании Готтсданкера и Уэй было использовано только три уровня независимой переменной (например 50, 100 и 200 мс), различным испытуемым — или группам испытуемых — были бы предъявлены следующие шесть последовательностей: 50, 100, 200 мс; 50, 200 и 100 мс; 100, 50 и 200 мс; 100, 200 и 50 мс; 200, 50 и 100 мс; 200, 100 и 50 мс. Мы не иллюстрируем полное уравнивание для большего числа уровней независимой переменной (обычно встречающегося в многоуровневых экспериментах) по той причине, что таблица оказалась бы слишком громоздкой. Например, для всех пяти уровней в исследовании Готтсданкера и Уэй потребовалось 120 последовательностей. Так что если бы даже только один испытуемый проводился через одну последовательность, то число испытуемых оказалось бы равным 120. Число последовательностей, необходимых для полного уравнивания, вычисляется как n-факториал, где n — число уровней. Для шести уровней n-факториал находится следующей серией умножений:
6Х5Х4ХЗХ2Х1=720.
Поскольку кросс-индивидуальное уравнивание было введено для сокращения числа испытуемых по сравнению с их числом в межгрупповой схеме, полное позиционное уравнивание используется крайне редко. Нижеследующая схема позволяет сократить число испытуемых, избегая допущения об однородном переносе, необходимом для схемы реверсивного уравнивания.
Если мы не хотим использовать все возможные последовательности, то естественно прийти к идее о случайном выборе из всего их множества. Иногда это и делается. Однако в случайно выбранном наборе последовательностей мало вероятно, что каждый уровень окажется в каждой позиции равное число раз. Поэтому нежелательные последствия неоднородного переноса будут по-прежнему существовать.
Выходом будет случайный выбор среди «квадратов», в которых каждый уровень появляется один раз в каждой позиции. Каждый такой квадрат представляет собой полную экспериментальную схему. Он называется латинским квадратом. Приведем пример одного из 8640 таких квадратов для шести уровней независимой переменной:
Группы испытуемых |
Последовательности |
1 |
АБВГДЕ |
2 |
ВДГАЕБ |
3 |
ДВАЕБГ |
4 |
БГЕВАД |
5 |
ГЕБДВА |
6 |
ЕАДБГВ |
Поскольку в латинском квадрате каждый уровень оказывается в каждой позиции последовательности, естественно, требуется столько групп испытуемых, сколько уровней независимой переменной. Если бы Готтсданкер и Уэй использовали (как это им и следовало сделать) латинский квадрат вместо реверсивного уравнивания, их испытуемые должны были разбиться на пять групп соответственно пяти уровням независимой переменной. Значит, в их опыте должны были бы принять участие пять или десять испытуемых вместо восьми, как это было на самом деле (ведь восемь на пять не делится).
Исследователи обычно вводят ограничение на латинский квадрат. Оно состоит в требовании, чтобы каждому уровню один раз непосредственно предшествовал каждый другой уровень. Такой квадрат называют сбалансированным квадратом. В приведенном выше латинском квадрате это условие не соблюдалось. Например, уровню Б только один раз предшествовали уровни А и Д, но три раза Е и ни разу В и Г. Метод получения сбалансированных квадратов приводится в работе Уагенаара (1969). Вот пример:
Группы испытуемых |
Последовательности |
1 |
АБВГДЕ |
2 |
БГАЕВД |
3 |
ВАДБЕГ |
4 |
ГЕБДАВ |
5 |
ДВЕАГБ |
6 |
ЕДГВБА |
Если бы все эффекты переноса были связаны с непосредственно предшествующим уровнем, сбалансированный квадрат был бы очень эффективен. К сожалению, нет способа проверить, в действительности ли это так. Рассмотрим теперь систематические смешения (влияния последовательности), которые могут возникать даже при полном уравнивании.
В многоуровневом эксперименте уровни независимой переменной образуют ряд — от наименьшего значения к наибольшему. При любой схеме уравнивания — интра- или кросс-индивидуальной — ответ на данный уровень независимой переменной может различаться в зависимости от того, какими были предшествующие ему уровни: более низкими, более высокими или смешанными.
Асимметричные эффекты. Об этих эффектах уже говорилось в главе 2 в связи с интраиндивидуальными схемами. Таково, например, влияние предшествующего опыта А на Б, но не наоборот. Эта идея может быть распространена на многоуровневые эксперименты с использованием кросс-индивидуального уравнивания. Предположим, имеется пять уровней независимой переменной и использована схема полного уравнивания (т. е. все 120 последовательностей). Поскольку каждому уровню один раз предшествовала каждая из возможных последовательностей остальных уровней, каждому уровню ни разу не предшествовали идентичные. В целом более низким уровням предшествовали более высокие уровни и наоборот. Например, самому низкому уровню не может предшествовать серия еще более низких уровней. Если имеется положительный перенос с меньших уровней на большие, но не наоборот, то больше всего от этого пострадает уровень А. Таким образом, асимметричный перенос в многоуровневом эксперименте будет благоприятно или неблагоприятно влиять на уровни в зависимости от степени их удаления от концов всего ряда уровней.
Эффект центрации. Другой эффект ряда был продемонстрирован в эксперименте Дж. Е. Кеннеди и Дж. Ландесмана (1963). Они провели два эксперимента, каждый по схеме латинского квадрата с двумя группами испытуемых. Задачей была токарная обработка деталей,
Рис. 7.7. Отношение между высотой рабочей поверхности и количеством обработанных деталей (Кеннеди и Ландесман, 1963). Ось абсцисс — высота рабочей поверхности (в дюймах, ниже (—) или выше ( + ) локтя). Ось ординат — среднее количество обработанных деталей. Пунктирная линия — условие А, сплошная — условие Б
независимой переменной являлась высота работ чей поверхности. Диапазон уровней в одном эксперименте пересекался с диапазоном уровней в другом. Независимой переменной служила высота рабочей поверхности. Зависимой переменной было среднее число деталей, обработанных в течение 3-минутной пробы.
На рис. 7.7 отдельно для каждой группы показаны средние количества обработанных деталей. Интересно, что испытуемые в условии А, где наименьший уровень равнялся 45 см, обнаружили наибольшую продуктивность при 15 см, в то время как испытуемые в условии Б работали на этом уровне относительно плохо. Эта вторая группа, для которой наименьшим был уровень 25 см, показала наилучшие результаты при уровне -5 и +5 см.
В этом эксперименте, таким образом, наиболее благоприятными оказались уровни, близкие к середине ряда, а не к его краям. Это были как раз, те единственные уровни, которым в последовательностях предшествовали как более низкие, так и более высокие уровни. Вы, конечно, можете сказать, что эти средние уровни казались для испытуемых «типичными» и поэтому наиболее удобными. Однако ваше объяснение имеет столько же оснований, сколько и мое. Ясно только одно: в этих опытах обнаружил себя эффект центрации.
Схемы полного позиционного уравнивания я латинского квадрата, в отличие от схемы реверсивного уравнивания, не требуют такого сильного допущения, как однородность переноса от одной позиции к следующей за ней. Однако в них сохраняется допущение, что отношение между настоящим и предшествующими уровнями не играет роли. Целый же ряд данных опровергает это (Поултон, 1973). Оказывается, важно, какие уровни в основном предшествуют: более низкие, более высокие или смешанные.
При использовании кросс-индивидуального уравнивания прежде всего стоит избегать реверсивного уравнивания. Поскольку полное уравнивание, как правило, оказывается 301непрактичным, стоит обращаться к схеме латинского квадрата, особенно сбалансированного квадрата. Далее, для избежания отрицательного переноса из-за утомления необходимо разнести пробы во времени. Хорошо также разделить эксперимент на две части и использовать два перекрывающихся ряда уровней независимой переменной. Если впоследствии эффектов ряда не обнаружится, это будет хорошим показателем того, что удалось избежать смешения из-за влияния последовательности. Как мы увидим в следующем параграфе, в многоуровневых экспериментах кросс-индивидуальное уравнивание, действительно, имеет одно важное преимущество перед межгрупповыми схемами. Этот подход слишком хорош, чтобы быть оставленным только потому, что он никогда не приводит к безупречному эксперименту. Каковы возможности этого подхода?
Использование межгрупповых схем полностью исключит влияния или эффекты последовательности, которые мы только что обсуждали. Ведь каждому испытуемому предъявляется один уровень. Однако в многоуровневых экспериментах, которые направлены на проверку гипотез точного отношения между независимой и зависимой переменными, остаются другие угрозы внутренней валидности. Мы имеем в виду эксперименты, подобные исследованию Стернберга (1969), который проверял гипотезу «абсолютно-абсолютного» отношения между объемом позитивного набора и временем, мнемонического поиска, а также экспериментам Хича (1952), который проверял гипотезу «относительно-абсолютного» отношения между числом альтернатив и временем реакции. Вообще говоря, групповые схемы более уязвимы по отношению к первой из этих угроз, чем схемы, использующие принцип уравнивания.
На рис. 7.8 (а) представлены вымышленные данные, демонстрирующие отношение между независимой и зависимой переменными в схеме межгрупповых сравнений.
Каждая маленькая точка соответствует одному испытуемому. Среднее по каждому уровню обозначено большой точкой, а полученная кривая есть линия, соединяющая средние. Теперь посмотрим, как выглядели бы эти данные в идеальном эксперименте, где испытуемый проверялся бы одновременно по всем уровням.
На рис. 7.8. (б) представлен один возможный вид этих результатов для нескольких испытуемых. Одной цифрой обозначены результаты одного и того же испытуемого
Рис. 7.8. Возможные соотношения усредненной кривой с данными идеального многоуровневого эксперимента, в котором каждому испытуемому одновременно предъявляются все уровни независимой переменной: (а) индивидуальные данные и усредненная кривая: (б) кривые по каждому испытуемому аналогичны усредненной кривой; (в) данные по каждому испытуемому дают различные кривые; (г) однородные группы испытуемых — высокая вероятность представительности усредненной кривой. Ось абсцисс — независимая переменная. Ось ординат — ответы испытуемых.
при различных уровнях независимой переменной. Линии, соединяющие ответы «одного испытуемого», по форме очень похожи на линию, соединяющую средние в (а). Конечно, возможен и другой вариант, когда линия, проходящая через средние, не обязательна так хорошо представляет все индивидуальные кривые, как это видно, например, на рис. 7.8 (в). Когда межгрупповой эксперимент дает результаты, представленные на рис. 7.8 (а), невозможно определить, какая из картин — (б) или (в) — имеет место в действительности. Из-за разброса индивидуальных данных в пределах одного уровня форма кривой оказывается неопределенной.
Существует два способа уменьшения этой трудности при использовании межгрупповой схемы: подбор сходных испытуемых и использование однородных групп. Если испытуемых провести через предварительные испытания, подобрать испытуемых по одинаковым уровням показанных результатов и затем предъявить так уравненным испытуемым различные уровни экспериментальной переменной, то вымышленные данные в виде наборов одинаковых цифр на рис. 7.8 (б) или (в) могут стать действительностью. Цифра 1 будет представлять одну уравненную группу испытуемых, 2 — другую группу и т. д. Тогда мы сможем непосредственно увидеть, какая картина верна — отражающая хорошее соответствие, как на (б), или довольно хаотическая, как на (в).
Второй способ основан на использовании одной, но очень однородной группы испытуемых, также может быть подобранной в предварительном эксперименте. Пример результатов такой группы приведен на рис. 7.8 (г). Теперь уже практически не имеет никакого значения, через какие точки пройдут индивидуальные линии: форма кривых будет примерно одной и той же. Оба описанных метода можно объединить, используя только одну однородную группу и распределяя испытуемых по различным уровням независимой переменной.
В этом пункте может несколько обеспокоить возможное пристрастие экспериментатора при отборе в испытуемые одних индивидов и отвержении других. Однако 304содержательных выводов о связи исследуемого поведения с уровнем экспериментальной переменной это ни в коей мере не коснется. Конечно, они будут относиться лишь к небольшой части популяции. Однако далее будет уже вопрос обобщения, который можно легко решить, исследуя другие гомогенные группы с более высокими и более низкими уровнями результатов.
Если же вместо всего сказанного будет использовано кросс-индивидуальное уравнивание с предъявлением каждой из пяти последовательностей нескольким испытуемым, то можно будет получить более ясную картину. Хотя кривую для каждой определенной последовательности нельзя будет «очистить» от зашумляющих влияний последовательности, эти влияния будут одинаковыми для всех испытуемых, которым будет предъявлена эта последовательность. Если, говоря в общем, все индивидуальные кривые для данной последовательности имеют одинаковую форму, это является хорошим свидетельством того, что вся групповая кривая по всем последовательностям действительно представляет индивидуальные данные. Поскольку одному и тому же испытуемому предъявляется каждый уровень независимой переменной (хотя и не одновременно), кросс-индивидуальная схема больше приближается к идеальному эксперименту — именно в этом отношении, — чем межгрупповая схема. Она имеет лучшую внутреннюю валидность по параметру представленности индивида.
Если бы вы проводили эксперимент с целью определить, как влияет вес дротика на точность его метания, вы хотели бы быть уверены, что в ваши измерения не вкрались ошибки. Если вы пользуетесь линейкой для измерения при каждом броске величины отклонения дротика от центра мишени, то, естественно, вам бы не хотелось, чтобы на вашей линейке расстояние между отметками 20 и 25 см было в три раза больше расстояния между 5 и 10 см. (Если бы это было так, вы скорее всего вернули бы линейку в магазин оборудования для фокусов.) Точно так же вы забраковали бы весы, стрелка которых едва отклоняется при помещении на них легкого дротика, но сразу же зашкаливает при чуть более тяжелом весе. Вы хорошо знаете, что использование подобных искажающих измерительных устройств приведет к тому, что кривая, отражающая отношение между независимой переменной (весом дротика) и зависимой переменной (величиной ошибки попадания в цель), будет весьма неточной. Вообще говоря, может быть вы и обнаружите, что метание становится более точным по мере увеличения веса. Но вы не сможете проверить гипотезу об «абсолютно-абсолютном» отношении (например, что происходит уменьшение ошибки на 5 см с увеличением веса на 1 унцию).
Конечно, вы не собираетесь делать подобных ошибок в своих экспериментах. Однако существует два вида измерений, в которых нужно приложить особые усилия для избежания искажений. Во-первых, это измерения очень маленьких физических величии. Примером может служить регистрация кожно-гальванической реакции — изменений сопротивления кожи «электрическому току, которые возникают, когда человек пугается или говорит неправду. Чтобы зарегистрировать реакцию, электрическое изменение должно быть усилено. Как мы можем быть уверены в том, что двойное увеличение амплитуды движения пера самописца означает двойное увеличение кожно-гальванической реакции? Обычно усилитель имеет максимальную чувствительность к определенной скорости нарастания или уменьшения тока. Если изменение нарастает либо быстрее, либо медленнее, оно уже не будет усиливаться в такой же пропорции. Итак, существуют такие области психологических исследований, где экспериментатор должен быть совершенно уверен в характеристиках измерительных приборов.
Проблемы искажения возникают и в тех случаях, когда используется психологическое шкалирование. Предположим, мы прошкалировали, как это было описано в одном из предшествующих разделов, шутки от «веселых» до «пустых», используя средние оценки-баллы, данные группой экспертов. Можем ли мы быть уверены о том, что различие в забавности между шутками, получившими оценку «2» и «4», такое же, как между шутками с оценкой «6» и «8»? Вероятно, нет. Следовательно, если бы мы проводили эксперимент для выяснения того, как влияет забавность шутки на ее запоминание, и проверяли бы какую-то точную гипотезу (например, что запоминаемость растет пропорционально росту забавности), мы не могли бы с уверенностью сказать, подтверждает форма кривой гипотезу или нет. Для правильного проведения такого эксперимента вы должны использовать более изощренные методы шкалирования, чем те, которые могут быть описаны в этой книге (см. Торгерсон, 1958). Сейчас же вы должны запомнить, что содержательная интерпретация формы кривых, полученных с помощью субъективного шкалирования переменных, всегда требует доказательства того, что переменные не были искажены.
В идеальном эксперименте, направленном на проверку гипотезы о некотором точном количественном отношении, не должно быть искажений при измерении независимой и зависимой переменных. Однако в реальном эксперименте всегда есть некоторое искажение. Если искажение настолько велико, что отношение, найденное в действительном эксперименте, не представляет отношения, которое могло бы быть найдено в идеальном эксперименте, то внутренняя валидность существенно ослаблена.
Ранее в этой главе было показано, что для проверки любой количественной гипотезы — неважно, сформулирована она в количественных терминах или нет — необходимо использовать достаточное число уровней независимой переменной. Слишком малое число уровней приводит к плохой представленности отношения между независимой и зависимой переменными. Внутренней валидности здесь угрожает не столько ненадежность или смешение, сколько неполнота независимой переменной. Было показано, что, во-первых, групповая кривая может не представлять индивидуальные и, во-вторых, что искаженные результаты измерения будут давать ложное отношение. В обоих случаях отношение между независимой и зависимой переменными оказывается невыявленным. Теперь мы знаем три пути, которые могут угрожать внутренней валидности, три причины того, что результаты реального эксперимента могут плохо представлять отношение между независимой и зависимой переменными, которое могло бы быть обнаружено в идеальном эксперименте: (1) ненадежность, (2) систематическое смешение и (3) неверно найденное отношение.
Было рассмотрено три возможных двухуровневых эксперимента, которые оказались совершенно неадекватными но сравнению с аналогичным реально проверенным многоуровневым экспериментом. На этом примере были разобраны преимущества многоуровневого эксперимента.
Во-первых, он обеспечивает большую внутреннюю валидность, чем простые эксперименты, описанные в предыдущих главах. В некоторых экспериментах, где фигурируют только два уровня, независимая переменная по существу является количественной. Использование только двух уровней такой переменной может не выявить истинного отношения, которое могло бы быть найдено в идеальном количественном эксперименте, где используется неограниченное число уровней. Чем больше уровней независимой переменной мы используем, тем больше мы приближаемся к этому невозможному эксперименту и тем больше становится внутренняя валидность. Кроме того, лучше оказывается контроль за сопутствующим смешением. Если активный уровень независимой переменной сравнивается с ее нулевым (или неактивным) уровнем, это может косвенно ввести активный уровень вторичной переменной. В качестве примеров приводилось осознание действия лекарства и установление контакта с экспериментатором. В то же время ступенчатое изменение независимой переменной, приводящее к ступенчатому изменению зависимой переменной, делает маловероятным такое смешение.
Многоуровневые эксперименты превосходят более простые эксперименты и в другом отношении. В них могут проверяться гипотезы, которые ведут к более тонкому пониманию механизмов поведения. Во-первых, в сравнении с экспериментами, использующими качественные независимые переменные, здесь можно лучше выделить единичную переменную. Качественная переменная ‑ такая, как чтение — в отличие от прослушивания — может быть только нерасчлененным комплексом факторов. Возможностей для введения количественных переменных — сколько, угодно, включая шкалирование поведения.
Дальнейшие преимущества определяются возможностью проверки более тонких гипотез об отношении между независимой и зависимой переменными. Часто наиболее правильной оказывается гипотеза о максимальной (или минимальной) величине зависимой переменной при некотором промежуточном уровне независимой переменной. Она может следовать из теории двух процессов, связанных противоположным образом с уровнем независимой переменной. Например, может случиться, что негативный процесс берет верх над позитивным только на очень высоких уровнях независимой переменной. Именно так был проанализирован воображаемый многоуровневый эксперимент по трудовой этике. В качестве основных здесь были предположены «стремление к активности» и чувство «неприязни» к нажиманию на рычаг. Другим примером служила теория, согласно которой в основе поведения лежат два позитивных процесса, на которые увеличение уровня независимой переменной влияет противоположным образом. Именно так был проанализирован эксперимент по запоминанию списков студентами колледжа с варьированием интервалов между элементами запоминаемого списка и эксперимент, связывающий величину удара током с перцептивным различением у танцующих мышей. Переменные, лежащие в основе поведения в этих двух экспериментах, представляли собой различение стимулов и образование ассоциаций.
Многоуровневые независимые переменные позволяют проверять более детализованные экспериментальные гипотезы. Последние создаются на основе моделей и теорий, объясняющих, каким образом ступенчатые изменения независимой переменной приводят к изменению зависимой переменной. Так, на основе сканирующей модели мнемического поиска была выдвинута гипотеза о том, что одинаковые по абсолютной величине приросты объема запоминаемого материала будут сопровождаться примерно равными абсолютными приростами времени поиска: гипотеза «абсолютно-абсолютных» отношений. При исследовании связи между числом альтернатив и временем реакции проверялась гипотеза «относительно-абсолютного» отношения: при каждом увеличении количества альтернатив в одно и то же число раз будет наблюдаться увеличение времени реакции на одну и ту же абсолютную величину. Эта гипотеза была основана на модели наиболее эффективного способа принятия решения. На основе теоретического представления о том, как сенсорные органы превращают физическую энергию стимула в нервное возбуждение, была предсказана гипотеза «относительно-относительного» отношения между величиной поднимаемого веса и субъективным ощущением тяжести. Во всех перечисленных случаях результаты подтверждали гипотезу: при выборе, на осях соответствующих шкал получалась линейная зависимость между независимой и зависимой переменной.
В многоуровневых экспериментах могут быть использованы и ранее описанные экспериментальные схемы. Для межгрупповой схемы существует практическая трудность: она состоит в необходимости привлекать слишком большое количество испытуемых. Внутрииндивидуальный контроль наиболее пригоден в случаях, когда предъявляются в случайном порядке короткие пробы па различных уровнях в большом наборе проб. Когда же каждая проба длительна, как это обычно и бывает при использовании внутрииндивидуального уравновешивания, в многоуровневом эксперименте возникает практическая трудность: необходимость затраты слишком большого времени на каждого испытуемого.
Эти практические трудности можно преодолеть путем использования кросс-индивидуального реверсивного уравнивания. Однако эта конкретная схема не обеспечивает контроль эффектов неоднородного переноса от предыдущей пробы к следующей. Такой контроль обеспечивает схема полного позиционного уравнивания, но она требует слишком большого числа различных последовательностей (и групп испытуемых), чтобы быть практически удобной. Типичным методом внутрииндивидуального уравнивания, который также контролирует неоднородный перенос, является латинский квадрат. В этой схеме каждый уровень независимой переменной появляется однажды в каждой позиции последовательности. Более тщательный контроль достигается путем использования только сбалансированных квадратов, в которых каждому уровню независимой переменной только один раз предшествует каждый из остальных уровней.
И все же ни одна схема кросс-индивидуального уравнивания не обеспечивает контроль эффектов ряда. В любой последовательности низким уровням чаще предшествуют более высокие, чем более низкие, уровни, а высоким — низкие, и это порождает угрозу асимметричного переноса. Другим описанным эффектом ряда является эффект центрации. Он возникает в связи с тем, что только уровням, близким к середине ряда, могут в равной мере предшествовать и высокие и низкие уровни. Более благоприятное положение средних уровней было показано в эксперименте с обработкой деталей.
Был рассмотрен ряд полезных советов. Так, при кросс-индивидуальной схеме вместо реверсивного уравнивания лучше использовать латинский квадрат; для того чтобы избежать влияния утомления, необходимо давать достаточный отдых между пробами; и, наконец, для контроля за эффектами ряда необходимо использовать перекрывающиеся диапазоны уровней независимой переменной.
Независимо от экспериментальной схимы при проверке точных гипотез все-таки остаются две угрозы внутренней валидности. Одна из них состоит в том, что форма кривой, полученной на группе испытуемых, может не представлять индивидуальные кривые ни одного испытуемого. В идеальном эксперименте один и тот же испытуемый должен был бы проверяться одновременно по всем уровням. Поэтому возможность неверной представленности истинного отношения в полученном отношении является источником внутренней невалидности. Особенно подвержены такой опасности межгрупповые схемы. Опасность может быть уменьшена благодаря уравниванию испытуемых и использованию однородных групп.
Другим источником неверной представленности отношения между независимой и зависимой переменными может быть искажающее действие измерительных приборов и шкал, с помощью которых измеряют зависимую и независимую переменные. С наибольшей вероятностью такое искажение возникает в двух тинах измерения. Первый случай — когда необходимо усиление малых физических величин, второй — когда используется субъективное шкалирование.
В предыдущих главах в качестве угроз внутренней валидности описывались ненадежность и систематическое смешение. В этой главе была показана новая угроза — неверно установленное отношение между независимой и зависимой переменными. Оно может быть следствием использования усредненных кривых, которые не представляют индивидуальные, затем — применения слишком малого числа уровней независимой переменной, наконец, проведения неверных измерений.
1. Чем многоуровневый эксперимент отличается от экспериментов, описанных в предыдущих главах?
2. Что означает утверждение, что многоуровневые эксперименты обеспечивают контроль для проверки экспериментальных гипотез, которые могли бы быть проверены и в двухуровневом эксперименте?
3. Сравните с теоретической точки зрения результаты эксперимента с количественным изменением независимой переменной и эксперимента с условиями, отличающимися только качественно.
4. Что подразумевается под экспериментальной гипотезой максимума или минимума?
5. Почему к эксперименту Стернберга по исследованию памяти приложим термин «абсолютно-абсолютного» отношения? Что лежало в основе этой экспериментальной гипотезы?
6. Определите различие между количественными экспериментальными гипотезами Хика (1922) о времени реакции и Харпера и Стивенса (1948) о субъективной тяжести.
7. Каковы практические причины использования позиционного уравнивания по всем испытуемым, а не межгрупповой схемы или интраиндивидуального позиционного уравнивания?
8. Что такое латинский квадрат?
9. Может ли предохранить полное позиционное уравнивание от эффектов неоднородного переноса? От эффектов ряда?
10. Какие угрозы внутренней валидности остаются при использовании любых схем проверки гипотезы точного отношения между независимой и зависимой переменными?
11. Понятие идеального эксперимента было вновь введено в связи с угрозой внутренней валидности, отличающейся от ненадежности и систематического смешения. Как это было сделано? Как бы вы в таком случае определили внутреннюю валидность?
t-критерий нельзя использовать для обнаружения общего действия независимой переменной в многоуровневом эксперименте. Его можно использовать только для проверки различия между средними значениями двух условий. Для того чтобы определить, отличаются ли в целом друг от друга различные уровни, требуется несколько иной подход и другой статистический критерий. Такой подход называют дисперсионным анализом; статистическая значимость оценивается F-критерием. Поскольку мы имеем дело с единственной независимой переменной, мы называем анализ однофакторным. В статистическом приложении к следующей главе, где будут рассматриваться эксперименты с двумя независимыми переменными, будет описана техника двуфакторного дисперсионного анализа.
Рассмотрим снова эксперимент по измерению времени реакции, в котором использовались четыре группы испытуемых. Испытуемый дает ответ на звуковой тон; независимой переменной является громкость тона (или, вернее, звуковое давление). Используется четыре уровня звукового давления: 10 децибел (дБ), 30 дБ, 50 дБ и 70 дБ. В каждой группе 17 испытуемых, и для каждого испытуемого определяется среднее время реакции.
Предположим, нуль-гипотеза верна. Тогда в бесконечном эксперименте, т. е. для неограниченного числа тестируемых по каждому уровню испытуемых, мы имели бы всегда одинаковые величины для М̅1 М̅2, М̅3 и М̅4. Хотя, конечно же, среднее время реакции для различных испытуемых, которым предъявляется одно и то же условие, было бы различным.
Мы можем сделать две оценки параметра — σ̅2х по данным нашего эксперимента, снова допуская нуль-гипотезу Μ̅1 = Μ̅2 = Μ̅3=Μ̅4. Одна из оценок основана на учете вариаций времени реакции среди испытуемых по всем уровням. Внутригрупповая вариация представляет собой просто объединение вариаций по всем уровням. Другая оценка определяет, насколько отдельные групповые средние отличаются от общего среднего эксперимента Μ1+2+3+4· Таким образом, существует внутригрупповая оценка σ̅2х и межгрупповая оценка σ̅2х.
Если верна нуль-гипотеза, то при достаточно длинной выборке оценки σ̅2х должны быть идентичны. В бесконечном эксперименте средняя оценка по межгрупповой вариации будет равна средней оценке по внутригрупповой вариации. В каждом отдельном эксперименте, включая рассматриваемый здесь эксперимент, мы те должны ожидать точного совпадения этих оценок. В одном эксперименте две эти оценки могут быть больше похожи, в другом — меньше. Когда две величины идентичны, их отношение равно 1:
Это отношение обозначается как F. В вышеприведенном выражении показан случай, когда F=l. Если нулевая гипотеза неверна, разность между средними для различных уровней будет намного больше, чем та, которую можно было бы объяснить несистематической вариацией данных. Межгрупповая оценка будет больше, чем внутригрупповая оценка; F будет больше 1.
Однако можно ожидать, что отношение F от эксперимента к эксперименту будет отличаться от 1, даже если средняя величина равна 1 (как это предполагается нуль-гипотезой). Распределение величин F в бесконечном ряду экспериментов при допущении верности нуль-гипотезы является еще одним выборочным распределением. Это распределение можно представить так же, как распределение для t. Для примера приводится рис. 7.9.
Вопрос состоит в том, превышает ли полученная в некотором эксперименте величина F критическое значение, соответствующее выбранному альфа-уровню, обычно 0,05 или 0,01. Другими словами, мы отвергнем нулевую гипотезу только если вероятность того, что полеченная нами величина F могла бы появиться при правильности нулевой гипотезы, достаточно мала. Для этого
Рис. 7.9. Ось абсцисс — F-отношение. Ось ординат — относительная частота. I — область принятия нуль-гипотезы; II — область отвержения с p= 0,05; III — область отвержения с р=0,01
наша F должна быть, конечно, больше 1, причем тем больше, чем меньше число испытуемых (или число проб) и чем больше несистематическая вариация.
Давайте сделаем таблицу, показывающую, какие показатели необходимы для вычисления F.
Показатель |
Уровеньзвука |
|||
1 |
2 |
3 |
4 |
|
MX |
M1 |
M2 |
M3 |
M4 |
∑x2 |
∑x12 |
∑x22 |
∑x32 |
∑x42 |
n |
n1 |
n2 |
n3 |
n4 |
Поскольку мы уже делали некоторые вычисления по четырем группам данных, давайте предположим, что они были получены и в эксперименте, где исследовалось влияние уровня громкости на время реакции. Назовем условие В уровнем 1, условие Г — уровнем 2, условие А — уровнем 3, условие Б — уровнем 4. Это избавит нас от большого числа вычислений. Кроме того, это даст нам уменьшение среднего времени реакции с увеличением громкости — как и должно быть. Таким образом, главные показатели нами уже вычислены (см. гл. 6).
Показатель |
Уровень звука |
|||
1 |
2 |
3 |
4 |
|
MX |
265 |
250 |
185 |
162 |
∑x2 |
4673 |
5391 |
5808 |
4306 |
n |
17 |
17 |
17 |
17 |
Сумма квадратов для отдельной группы. Внутригрупповая (ВГ) сумма квадратов (СК) будет использована для определения оценки σ̅2хвнутри группы. Она находится простым сложением членов Σ2xпо строке, поэтому
СКВГ = ∑x12 + ∑x22+ ∑x32+ ∑x42. (7.1)
Здесь
СКВГ = 4673 + 5391 + 5808 + 4306 = 20 178.
Сумма квадратов между группами. Межгрупповая сумма квадратов будет использована при определении оценки σ̅2хмежду группами. Для того, чтобы найти ее, вы сначала вычисляете общее («общ») среднее для четырех условий:
,
(7.2)
где k— число групп. Здесь
Затем ищется разность между каждым отдельным средним и общим средним. Такие разности обозначаются буквой d. Так,
d1 = Mt— Мобщ, d2= M2— Мобщ … (7.3)
Для числовых данных:
d1 = 265 — 215,5= +49,5; d2= 250 — 215,5 = +34,5;
d3 = 185 — 215,5= —30,5; d4= 162 —215,5 = —53,5.
Межгрупповая (МГ) сумма квадратов — это просто сумма квадратов величин d, умноженная на число случаев (n) по данному условию:
СКМГ = n(d12 + d22+ d32+ d42). (7.4)
Для числовых данных:
СКМГ= 17(2450,25 + 1190,25 + 930,25 + 2862,25) -= 17(7433) = 126361.
Внутригрупповое среднее квадратичное (СКВВГ ).
Оценка σ̅2х, основанная на внутригрупповой вариации, называется внутригрупповым средним квадратичным. Она находится делением суммы квадратов внутри групп на сумму степеней свободы для средних всех групп. Так, она равняется (n1—1) + (n2—1) + (n3—1), ...
Поскольку мы имеем kусловий и N испытуемых в целом,
dfВГ = N — k. (7.5)
Для нашего эксперимента
dfВГ = 68 — 4 = 64.
Как уже говорилось,
.
(7.6)
Для наших данных
.
Межгрупповое среднее квадратичное. Оценка σ̅2х, основанная на межгрупповой вариации, называется межгрупповым средним квадратичным (СКВМГ). Она находится делением межгрупповой суммы квадратов начисло степеней свободы для общего среднего, вычисленного из средних для различных условий:
dfMГ = k— 1 (7.7)
А для числовых данных
dfMГ = 4 — 1 = 3.
Как уже говорилось,
.
(7.8)
Или:
.
F-отношение. Последний шаг в вычислении F-деление межгруппового среднего квадратичного на внутри-групповое среднее квадратичное. Вспомните, что чем больше это отношение, тем более вероятно, что нуль-гипотеза может быть отвергнута:
.
(7.9)
Или:
.
На графике F-распределения, приведенном в начале данного статистического приложения, полученная нами величина F оказывается расположенной далеко справа. Очевидно, что если бы была верна нулевая гипотеза, то такое большое F-отношение должно получаться крайне редко, ведь в бесконечном ряду экспериментов отношение равнялось бы 1. Мы должны обеспечить уверенность, что имеем право отвергнуть нуль-гипотезу, найдя критическую величину в Статистической таблице 3 в конце данного приложения.
Поскольку распределение будет иметь различную форму в зависимости от числа степеней свободы в числителе и знаменателе, таблица разделена на несколько вертикальных столбцов и множество горизонтальных строк. Каждый столбец содержит критические величины F для альфа-уровня 0,05 и 0,01 при определенном числе степеней свободы в числителе F-отношения. Каждая строка показывает то же самое для определенного числа степеней свободы в знаменателе.
Используя Статистическую таблицу 3 для нашего F = 133,71 с df = 3 в числителе и df = 64 в знаменателе, мы обращаемся к столбцу 3 и строке 65 наиболее близкой к 64. Величина 2,75 показывает значение F, требуемое для отвержения нулевой гипотезы на уровне 0,05; величина 4,10 показывает значение, требуемое для отвержения нуль-гипотезы на уровне 0,01. Этимуровням соответствуют линии, приведенные на графике распределения F. Область отношений отвержения нуль-гипотезы для каждого из этих альфа-уровней, лежит справа от каждой линии. Конечно, нет необходимости рисовать распределение, когда мы можем использовать таблицу критических величин. Для наших числовых данных мы можем утверждать, что p< 0,01.
Только что описанный метод называют дисперсионным анализом (или ANOVA при вычислениях на ЭВМ). По существу, все дисперсии данных уже были проанализированы по частям. Вы могли бы вычесть общее среднее из величины реакции, полученной для каждого испытуемого, и возвести в квадрат 68 разностей. Их сложение дает общую сумму квадратов (СКобщ)· Теперь, если вы сложите вместе сумму квадратов внутри групп и сумму квадратов между группами и не сделаете ошибок, эта сумма тоже будет равняться общей сумме квадратов (СКобщ)·
Представлять результаты дисперсионного анализа принято в виде таблицы сумм квадратов и средних квадратичных. Вот как мы могли бы представить наши данные:
Дисперсионный анализ
Эксперимент по исследованию зависимости
между громкостью стимула и временем реакции
Источник дисперсии |
СК |
df |
СКВ |
F |
p |
Между уровнями громкости |
126361 |
3 |
42120 |
133,71 |
<0,01 |
Внутри уровней громкости |
20178 |
64 |
315 |
||
Общая |
146539 |
67 |
Задача: Проведите дисперсионный анализ на основании следующих данных, соотносящих число решенных проблем с величиной денежной награды. Завершите анализ дисперсионной таблицей. Данные получены на различных группах испытуемых.
Награда (от меньшей к большей)
Уровень 1 |
Уровень 2 |
Уровень 3 |
Уровень 4 |
Уровень 5 |
Уровень 6 |
10 |
8 |
12 |
12 |
24 |
19 |
11 |
10 |
17 |
15 |
16 |
18 |
9 |
16 |
14 |
16 |
22 |
27 |
13 |
13 |
9 |
16 |
18 |
25 |
7 |
12 |
16 |
19 |
20 |
24 |
Ответ |
Источник дисперсии |
СК |
df |
СКВ |
F |
p |
Между уровнями |
590,8 |
5 |
118,16 |
12,64 |
<0,01 |
Внутри уровней |
224,4 |
24 |
9,35 |
||
Общая |
815 |
29 |
Статистическая таблица 3
Критические значения F для отвержения нуль-гипотезы (верхнее число для α — 0.05, а нижнее для α = 0,01)
Степени свободы для знаменателя |
Степени свободы для числителя |
|||||||||
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
1 |
161 |
200 |
216 |
225 |
230 |
234 |
237 |
239 |
241 |
242 |
4052 |
4999 |
5403 |
5625 |
5764 |
5859 |
5928 |
5981 |
6022 |
6056 |
|
2 |
18,51 |
19,00 |
19,16 |
19,25 |
19,30 |
19,33 |
19,36 |
19,37 |
19,38 |
19,39 |
98,49 |
99,01 |
99,17 |
99,25 |
99,30 |
99,33 |
99,34 |
99,36 |
99,38 |
99,40 |
|
3 |
10,13 |
9,55 |
9,28 |
9,12 |
9,01 |
8,94 |
8,88 |
8,84 |
8,81 |
8,78 |
34,12 |
30,81 |
29,46 |
28,71 |
28,24 |
27,91 |
27,67 |
27,49 |
27,34 |
27,23 |
|
4 |
7,71 |
6,94 |
6,59 |
6,39 |
6,26 |
6,16 |
6,09 |
6,04 |
6,00 |
5,96 |
21,20 |
18,00 |
16,69 |
15,98 |
15,52 |
15,21 |
14,98 |
14,80 |
14,66 |
14,54 |
|
5 |
6,61 |
5,79 |
5,41 |
5,19 |
5,05 |
4,95 |
4,88 |
4,82 |
4,78 |
4,74 |
16,26 |
13,27 |
12,06 |
11,39 |
10,97 |
10,67 |
10,45 |
10,27 |
10,15 |
10,05 |
|
6 |
5,99 |
5,14 |
4,76 |
4,53 |
4,39 |
4,28 |
4,21 |
4,15 |
4,10 |
4,06 |
13,74 |
10,92 |
9,78 |
9,15 |
8,75 |
8,47 |
8,26 |
8,10 |
7,98 |
7,87 |
|
7 |
5,59 |
4,74 |
4,35 |
4,12 |
3,97 |
3,87 |
3,79 |
3,73 |
3,68 |
3,63 |
12,25 |
9,55 |
8,45 |
7,85 |
7,46 |
7,19 |
7,00 |
6,84 |
6,71 |
6,62 |
|
8 |
5,32 |
4,46 |
4,07 |
3,84 |
3,69 |
3,58 |
3,50 |
3,44 |
3,39 |
3,34 |
11,26 |
8,65 |
7,59 |
7,01 |
6,63 |
6,37 |
6,19 |
6,03 |
5,91 |
5,82 |
|
9 |
5,12 |
4,26 |
3,86 |
3,63 |
3,48 |
3,37 |
3,29 |
3,23 |
3,18 |
3,13 |
10,56 |
8,02 |
6,99 |
6,42 |
6,06 |
5,80 |
5,62 |
5,47 |
5,35 |
5,26 |
|
10 |
4,96 |
4,10 |
3,71 |
3,48 |
3,33 |
3,22 |
3,14 |
3,07 |
3,02 |
2,97 |
10,04 |
7,56 |
6,55 |
5,99 |
5,64 |
5,39 |
5,21 |
5,06 |
4,95 |
4,85 |
|
11 |
4,84 |
3,98 |
3,59 |
3,36 |
3,20 |
3,09 |
3,01 |
2,95 |
2,90 |
2,86 |
9,65 |
7,20 |
6,22 |
5,67 |
5,32 |
5,07 |
4,88 |
4,74 |
4,63 |
4,54 |
|
12 |
4,75 |
3,88 |
3,49 |
3,26 |
3,11 |
3,00 |
2,92 |
2,85 |
2,80 |
2,76 |
9,33 |
6,93 |
5,95 |
5,41 |
5,06 |
4,82 |
4,65 |
4,50 |
4,39 |
4,30 |
|
13 |
4,67 |
3,80 |
3,41 |
3,18 |
3,02 |
2,92 |
2,84 |
2,77 |
2,72 |
2,67 |
9,97 |
6,70 |
5,74 |
5,20 |
4,86 |
4,62 |
4,44 |
4,30 |
4,19 |
4,10 |
|
14 |
4,60 |
3,74 |
3,34 |
3,11 |
2,96 |
2,85 |
2,77 |
2,70 |
2,65 |
2,60 |
8,86 |
6,51 |
5,56 |
5,03 |
4,69 |
4,46 |
4,28 |
4,14 |
4,03 |
3,94 |
|
15 |
4,54 |
3,68 |
3,29 |
3,06 |
2,90 |
2,79 |
2,70 |
2,64 |
2,59 |
2,55 |
8,68 |
6,36 |
5,42 |
4,89 |
4,56 |
4,32 |
4,14 |
4,00 |
3,89 |
3,80 |
|
16 |
4,49 |
3,63 |
3,24 |
3,01 |
2,85 |
2,74 |
2,66 |
2,59 |
2,54 |
2,40 |
8,53 |
6,23 |
5,29 |
4,77 |
4,44 |
4,20 |
4,03 |
3,89 |
3,78 |
3,69 |
|
17 |
4,45 |
3,69 |
3,20 |
2,96 |
2,81 |
2,70 |
2,62 |
2,55 |
2,50 |
2,45 |
8,40 |
6,11 |
5,18 |
4,67 |
4,34 |
4,10 |
3,93 |
3,79 |
3,68 |
3,59 |
|
18 |
4,41 |
3,55 |
3,16 |
2,93 |
2,77 |
2,66 |
2,58 |
2,51 |
2,46 |
2,41 |
8,28 |
6,01 |
5,09 |
4,58 |
4,25 |
4,01 |
3,85 |
3,71 |
3,60 |
3,51 |
|
19 |
4,38 |
3,52 |
3,13 |
2,90 |
2,74 |
2,63 |
2,55 |
2,48 |
2,43 |
2,38 |
8,18 |
5,93 |
5,01 |
4,50 |
4,17 |
3,94 |
3,77 |
3,63 |
3,52 |
3,43 |
|
20 |
4,35 |
3,49 |
3,10 |
2,87 |
2,71 |
2,60 |
2,52 |
2,45 |
2,40 |
2,35 |
8,10 |
5,85 |
4,94 |
4,43 |
4,10 |
3,87 |
3,71 |
3,56 |
3,45 |
3,37 |
|
21 |
4,32 |
3,47 |
3,07 |
2,84 |
2,68 |
2,57 |
2,49 |
2,42 |
2,37 |
2,32 |
8,02 |
5,78 |
4,87 |
4,37 |
4,04 |
3,81 |
3,65 |
3,51 |
3,40 |
3,31 |
|
22 |
4,30 |
3,44 |
3,05 |
2,82 |
2,66 |
2,55 |
2,47 |
2,40 |
2,35 |
2,30 |
7,94 |
5,72 |
4,82 |
4,31 |
3,99 |
3,76 |
3,59 |
3,45 |
3,35 |
3,26 |
|
23 |
4,28 |
3,42 |
3,03 |
2,80 |
2,64 |
2,53 |
2,45 |
2,38 |
2,32 |
2,28 |
7,88 |
5,66 |
4,76 |
4,26 |
3,94 |
3,71 |
3,54 |
3,41 |
3,30 |
3,21 |
|
24 |
4,26 |
3,40 |
3,01 |
2,78 |
2,62 |
2,51 |
2,43 |
2,36 |
2,30 |
2,26 |
7,82 |
5,61 |
4,72 |
4,22 |
3,90 |
3,67 |
3,50 |
3,36 |
3,25 |
3,17 |
|
25 |
4,24 |
3,38 |
2,99 |
2,76 |
2,60 |
2,49 |
2,41 |
2,34 |
2,28 |
2,24 |
7,77 |
5,57 |
4,68 |
4,18 |
3,86 |
3,63 |
3,46 |
3,32 |
3,21 |
3,13 |
|
26 |
4,22 |
3,37 |
2,98 |
2,74 |
2,59 |
2,47 |
2,39 |
2,32 |
2,27 |
2,22 |
7,72 |
5,53 |
4,64 |
4,14 |
3,82 |
3,59 |
3,42 |
3,29 |
3,17 |
3,09 |