Курсовая работа: Дисперсионный анализ. Отклонение от предположения о нормальности распределений. I этап. Построение дисперсионного комплекса

Методы дисперсионного анализа

  • 1. Метод по Фишеру (Fisher) -- критерий F
  • 2. Метод применяется в однофакторном дисперсионном анализе, когда совокупная дисперсия всех наблюдаемых значений раскладывается на дисперсию внутри отдельных групп и дисперсию между группами.
  • 3. Метод "общей линейной модели".
  • 4. В его основе лежит корреляционный или регрессионный анализ, применяемый в многофакторном анализе.

Обычно в медико-биологических исследованиях используются только однофакторные, максимум двухфакторные дисперсионные комплексы. Многофакторные комплексы можно исследовать, последовательно анализируя одно- или двухфакторные комплексы, выделяемые из всей наблюдаемой совокупности.

Условия применения дисперсионного анализа

  • 1. Задачей исследования является определение силы влияния одного (до 3) факторов на результат или определение силы совместного влияния различных факторов (пол и возраст, физическая активность и питание и т.д.).
  • 2. Изучаемые факторы должны быть независимые (несвязанные) между собой. Например, нельзя изучать совместное влияние стажа работы и возраста, роста и веса детей и т.д. на заболеваемость населения.
  • 3. Подбор групп для исследования проводится рандомизированно (случайный отбор). Организация дисперсионного комплекса с выполнением принципа случайности отбора вариантов называется рандомизацией (перев. с англ. -- random), т.е. выбранные наугад.
  • 4. Можно применять как количественные, так и качественные (атрибутивные) признаки.

При проведении однофакторного дисперсионного анализа рекомендуется (необходимое условие применения):

  • 1. Нормальность распределения анализируемых групп или соответствие выборочных групп генеральным совокупностям с нормальным распределением.
  • 2. Независимость (не связанность) распределения наблюдений в группах.
  • 3. Наличие частоты (повторность) наблюдений.

Нормальность распределения определяется кривой Гаусса (Де Мавура), которую можно описать функцией у = f(х), так как она относится к числу законов распределения, используемых для приближенного описания явлений, которые носят случайный, вероятностный характер. Предмет медико-биологических исследований -- явления вероятностного характера, нормальное распределение в таких исследованиях встречается весьма часто.

Множественные сравнения.

Довольно часто возникает задача сравнения не двух групп (выборок), а нескольких – так называемая задача множественных сравнений . Например, различных возрастных, профессиональных, социальных слоев населения, или влияния различных доз препарата, методов диагностики и т.д.

При исследовании нового лекарственного препарата нас может интересовать не только вопрос о достоверности влияния препарата на величину некоторого параметра Х (например, систолического давления или уровня холестерина), но и значимо ли воздействие различных доз препарата. То есть нам надо изучить влияние фактора Дозы(F 1), а выборки (группы) составленные из значений параметра Х для различных доз называются – уровни фактора дозы . Так же нас может интересовать фактор Времени (F 2) , когда применяют препарат (утро, день вечер или более мелкая градация – это уровни фактора Времени ) и влияние фактора Возраста пациента (F 3) и т.д.

В этом случае рекомендуется на начальном этапе провести факторный дисперсионный анализ , который позволяет ответить на вопрос, значимо ли хотя бы одно отличие между сравниваемыми группами. Нулевая гипотеза о равенстве всех средних (медиан) проверяется по параметрическому критерию Фишера или непараметрическому аналогу – критерию Краскела-Уолиса.

Казалось бы зачем нужен дисперсионный анализ если существует такой прекрасный и понятный статистический критерий, как т -критерий Стьюдента?

Главное ограничение т -критерия перед дисперсионным анализом состоит в том, что первый предназначен для парных сравнений , то есть ситуации, когда у нас есть только две выборки и он нуждается в поправках на множественные сравнения , в случае, если у нас более двух групп (выборок). Во-вторых, представим, если у нас 6 групп и мы ищем статистически значимые различия между ними, сколько попарных сравнений в таком случае нужно сделать?

Проблема множественных сравнений.

Если на одном и том же наборе данных выполняется многократная проверка гипотез, то при проверке каждой статистической гипотезы закладывается возможность ошибки первого рода (т.е. отклонение верной нулевой гипотезы). Чем больше гипотез мы проверяем на одних и тех же данных, тем больше будет вероятность допустить как минимум одну такую ошибку. Это явление называют эффектом множественных сравнений (multiple testing ) ...

Пусть имеем три выборки А, В и С. Сравнение по критерию Стьюдента, Уровень значимости – a=0,05.

При сравнении групп A и В риск ошибиться с вероятностью 5%.(α=0,05) Точно такая же вероятность ошибки будет иметь место и при сравнении В с С и А с С. Соответственно, вероятность ошибиться хотя бы в одном из этих трех сравнений составит:

Это гораздо выше 0,05.

Очевидно, что дальнейшее увеличение числа проверяемых гипотез будет неизбежно сопровождаться и возрастанием в каждом отдельном тесте ошибки 2 рода (снижение мощности критерия).

В таком случае необходимо использоваться критерий, который предназначен для ситуаций, когда сравнивается большое число групп и который нам даст единый ответ на все изучаемые группы - дисперсионный анализ.

Дисперсионный анализ.

В зарубежной литературе дисперсионный анализ часто обозначается как ANOVA , что переводится как анализ вариативности (Analysis of Variance).

Дисперсионный анализ был разработан английским математиком – статистиком Р. Фишером в 1918 г. для обработки результатов агрономических опытов по выявлению условий получения максимального урожая различных сортов сельскохозяйственных культур.

Дисперсионный анализ это статистический метод, предназначенный для оценки влияния различных факторов на результат эксперимента, а также для последующего планирования аналогичных экспериментов. То есть в результате проведения эксперимента мы получаем несколько выборок для каждого фактора (уровни фактора), которые мы и должны сравнивать.

Условия применения дисперсионного анализа ANOVA

Перед тем как приступить к применению дисперсионного анализа, который предназначен для минимизации риска неправильной оценки ошибки 1 рода в случае множественных сравнений необходимо убедиться в соблюдении ряда условий:

1. Непрерывный тип данных, дискретные данные менее желательны.

2. Независимые между собой выборки.

3. Нормальное распределение признака в статистических совокупностях, из которых извлечены выборки. (Дисперсионный анализ – это параметрический критерий)

4. Равенство дисперсий изучаемого признака в статистических совокупностях, из которых извлечены выборки.

5. Независимые наблюдения в каждой из выборок.

Если данные не подчиняются нормальному распределению , то при анализе можно использовать два способа: применением различных арифметических преобразований до достижения нормальности распределения и дальше уже применять дисперсионный анализ, или использовать критерий Краскела-Уоллиса (Kruskal-Wallis H-test) , иногда его также называют непараметрическим дисперсионным анализом.

Метод дисперсионного анализа базируется на предположении о том, что если на объект (группу испытуемых) влияет несколько независимых факторов и их влияние складывается, то общую дисперсию значений признака, характеризующую объект (группу испытуемых) можно разложить на сумму дисперсий , возникающих в результате воздействия каждого отдельного фактора , а также обусловленных случайными влияниями (остаточная дисперсия). Сравнение дисперсий обусловленных влиянием различных факторов со случайной (остаточной) дисперсией позволяет оценить значимость вклада каждого из факторов, то есть оценить достоверность этих влияний.

Иногда дисперсионный анализ применяется, чтобы установить однородность нескольких совокупностей. А именно: если дисперсии этих совокупностей одинаковы (по предположению) и если математические ожидания одинаковы то можно считать, что совокупности однородны. Однородные совокупности можно объединить в одну и тем самым упростить исследования и получить более полную информацию, более надёжные выводы.

С помощью дисперсионного анализа исследователи из детской больницы в городе Питсбурге (США) получили первые доказательства того, что при ОРВИ повышается уровень гистамина, что проявляется в моче на 2-5 сутки вирусной инфекции, вызванной вирусом А. (Гистамин – основной эндогенный (внутренний) медиатор (фактор)аллергических реакций).

По числу факторов влияние которых исследуется, различают однофакторный и многофакторный дисперсионный анализ.

Дисперсионный анализ – анализ изменчивости результативного признака под влиянием каких-либо контролируемых переменных факторов. (В зарубежной литературе именуется ANOVA – «Analisis of Variance»).

Результативный признак называют также зависимым признаком, а влияющие факторы – независимыми признаками.

Ограничение метода: независимые признаки могут измеряться по номинальной, порядковой или метрической шкале, зависимые – только по метрической. Для проведения дисперсионного анализа выделяют несколько градаций факторных признаков, а все элементы выборки группируют в соответствии с этими градациями.

Формулировка гипотез в дисперсионном анализе.

Нулевая гипотеза: «Средние величины результативного признака во всех условиях действия фактора (или градациях фактора) одинаковы».

Альтернативная гипотеза: «Средние величины результативного признака в разных условиях действия фактора различны».

Дисперсионный анализ можно подразделить на несколько категорий в зависимости:

от количества рассматриваемых независимых факторов;

от количества результативных переменных, подверженных действию факторов;

от характера, природы получения и наличия взаимосвязи сравниваемых выборок значений.

При наличии одного фактора, влияние которого исследуется, дисперсионный анализ именуется однофакторным, и распадается на две разновидности:

- Анализ несвязанных (то есть – различных) выборок . Например, одна группа респондентов решает задачу в условиях тишины, вторая – в шумной комнате. (В этом случае, к слову, нулевая гипотеза звучала бы так: «среднее время решения задач такого-то типа будет одинаково в тишине и в шумном помещении», то есть не зависит от фактора шума.)

- Анализ связанных выборок , то есть, двух замеров, проведенных на одной и той же группе респондентов в разных условиях. Тот же пример: в первый раз задача решалась в тишине, второй – сходная задача – в условиях шумовых помех. (На практике к подобным опытам следует подходить с осторожностью, поскольку в действие может вступить неучтенный фактор «научаемость», влияние которого исследователь рискует приписать изменению условий, а именно, - шуму.)

В случае если исследуется одновременное воздействие двух или более факторов, мы имеем дело с многофакторным дисперсионным анализом, который также можно подразделить по типу выборки.

Если же воздействию факторов подвержено несколько переменных, - речь идет о многомерном анализе . Проведение многомерного дисперсионного анализа предпочтительнее одномерного только в том случае, когда зависимые переменные не являются независимыми друг от друга и коррелируют между собой.

Обобщенно задача дисперсионного анализа состоит в том, чтобы из общей вариативности признака выделить три частные вариативности:

    вариативность, обусловленную действием каждой из исследуемых независимых переменных (факторов).

    вариативность, обусловленную взаимодействием исследуемых независимых переменных.

    вариативность случайную, обусловленную всеми неучтенными обстоятельствами.

Для оценки вариативности, обусловленной действием исследуемых переменных и их взаимодействием вычисляется отношение соответствующего показателя вариативности и случайной вариативности. Показателем этого соотношения является F – критерий Фишера.

Чем в большей степени вариативность признака обусловлена действием влияющих факторов или их взаимодействием, тем выше эмпирические значения критерия .

В формулу расчета критерия входят оценки дисперсий, и, следовательно, этот метод относится к разряду параметрических.

Непараметрическим аналогом однофакторного дисперсионного анализа для независимых выборок является критерий Краскела-Уоллеса. Он подобен критерию Манна-Уитни для двух независимых выборок, за тем исключением, что он суммирует ранги для каждой из групп.

Кроме этого, в дисперсионном анализе может быть применен медианный критерий. При его использовании для каждой группы определяются число наблюдений, которые превышают медиану, вычисленную по всем группам, и число наблюдений, которые меньше медианы, после чего строится двумерная таблица сопряженности.

Критерий Фридмана является непараметрическим обобщением парного t-критерия для случая выборок с повторными измерениями, когда количество сравниваемых переменных больше двух.

В отличие от корреляционного анализа, в дисперсионном анализе исследователь исходит из предположения, что одни переменные выступают как влияющие (именуемые факторами или независимыми переменными), а другие (результативные признаки или зависимые переменные) – подвержены влиянию этих факторов. Хотя такое допущение и лежит в основе математических процедур расчета, оно, однако, требует осторожности при выводах о причине и следствии.

Например, если мы выдвигаем гипотезу о зависимости успешности работы должностного лица от фактора Н (социальной смелости по Кэттелу), то не исключено обратное: социальная смелость респондента как раз и может возникнуть (усилиться) вследствие успешности его работы – это с одной стороны. С другой: следует отдать себе отчет в том, как именно измерялась «успешность»? Если за ее основу взяты были не объективные характеристики (модные нынче «объемы продаж» и проч.), а экспертные оценки сослуживцев, то имеется вероятность того, что «успешность» может быть подменена поведенческими или личностными характеристиками (волевыми, коммуникативными, внешними проявлениями агрессивности etc.).

При планировании эксперимента бывают ситуации, когда исследуемую систему необходимо разбить на группы, отличающиеся между собой в количественном отношении, и установить сходство или различие между ними по влиянию различных факторных величин на признак. Например, определить степень влияния географических условий на ход тех или иных процессов, явлений. Таким условиям лучше всего отвечает дисперсионный анализ, который нашел применение в физической географии.

Дисперсионный анализ позволяет утверждать с определенной долей уверенности наличие влияния на изучаемый объект каждого из условий в отдельности или в их сочетаниях. Обязательным условием применения дисперсионного анализа является разбивка каждого учитываемого фактора не менее чем на две группы. Они могут быть представлены как качественными, так и количественными показателями. Качественные показатели приводятся в виде баллов. Анализу подвергаются лишь определяющие поведение объекта факторы, которые установлены исследователем. По количеству определяющих факторов дается название виду дисперсионного анализа (одно-, двух-, трехфакторный и т. д.).

Обработка данных дисперсионного анализа - весьма трудоемкий процесс; облегчает вычисления правильная организация опыта. Порядок расчета в различных видах дисперсионного анализа будет различным, но логическая схема остается единой. Факторы в дисперсионном анализе должны быть независимыми друг от друга; каждый фактор следует разделить на группы, количество которых зависит от поставленной задачи.

Дисперсионный анализ применяется в случаях нормального или близкого к нему распределения выборочных совокупностей. Выборки должны иметь близкие по значению показатели дисперсии σ 2 . Количество повторностей в каждой выделенной группе принимается одинаковым.

Основная трудность при использовании дисперсионного анализа - составление комбинационной таблицы для обработки данных (дисперсионный комплекс). Если число наблюдений над результативным признаком по отдельным группам изучаемого фактора одинаково, то дисперсионный комплекс называется равномерным, если разное, то неравномерным. Общее число наблюдений над результативным признаком принято называть объемом дисперсионного комплекса.

Порядок действия по каждому виду дисперсионного анализа определяется его основной задачей, которая состоит в делении суммарного или общего варьирования изучаемого признака на доли: варьирование, вызываемое действием отдельных факторов; варьирование, вызываемое взаимодействием факторов между собой; остаточное варьирование объекта, которое определяется неучитываемыми факторами.

Однофакторный дисперсионный анализ

Среди различных видов дисперсионного анализа наиболее часто используется однофакторный. Для выполнения однофакторного анализа в опыте должно быть предусмотрено две повторности и более. Исследуемый фактор разбивается на группы с целью выявления его оптимальной величины, влияющей на результативный признак. Для облегчения расчета можно уменьшить все показатели в пределах дисперсионного комплекса на определенную величину, а затем увеличить конечные результаты на ту же величину.

Географы исследуют не только природные, но и сельскохозяйственные ландшафты (агроландшафты), претерпевающие существенные изменения под воздействием агротехногенеза. Использование системного анализа позволяет не только констатировать изменения в агроландшафте, но и активно включаться в его преобразование.

Известно, что оптимальным условиям питания растений соответствует дерновая легкосуглинистая гумусированная нейтральная почва. Ее можно создать путем внесения в пахотный горизонт добавок минерального грунта определенного механического состава и торфа. Формирование искусственной антропогенной почвы требует полевых экспериментов. В связи с этим поставлена следующая задача: определить влияние на урожай зерна ячменя разных доз торфа (200, 300, 400 т абсолютно сухого вещества на гектар) при внесении его на фоне минеральных, органических удобрений и доломитовой муки. Исходная почва - дерново-подзолистая глееватая связносупесчаная осушенная. После получения сведений об урожайности ячменя в названных условиях составляется таблица дисперсионного комплекса (табл. 2.1), куда заносится исходная информация по группам влияющего фактора (вариантам опыта) и некоторые результаты расчетов (для удобства сделано округление по урожайности до целых чисел). Вначале производим расчет данных по вариантам опыта (строкам).

Результаты разносим по столбцам. Суммарный урожай ячменя по повторностям Σx i и по каждому варианту опыта вносим в столбец 6 в числителе. Аналогично поступаем с квадратами этих показателей Σx i 2 . Затем в столбце 7 приводим квадраты суммарного урожая ячменя по повторностям (Σx i ) 2 . И, наконец, вычисляем среднее арифметическое М i по каждому варианту опыта, заносим в столбец 8; вычисляем общее среднее М общ.

После получения данных по вариантам опыта произ-водим расчет необходимых показателей по повторностям (х k ). Сначала суммируем данные урожайности ячменя и приводим в строке под чертой Σx k . Суммы сумм урожайности ячменя по вариантам опыта и повторностям должны совпасть и дать сумму всех вариант (ΣΣx i , k = 495). Аналогично суммируем квадраты этих показателей по повторностям (Σx k 2). Суммы сумм квадратов по вариантам и повторностям опыта должны совпасть и дать сумму квадратов всех вариант (Σx i 2 = Σx k 2 =15 935). Ниже вписываем результаты возведения в квадрат сумм вариант по каждой повторности (Σx k ) 2 и суммируем их: Σ(Σx k ) 2 = 61 269. Вычисляем средние арифметические по каждой повторности опыта М k . Общее среднее арифметическое всех вариант опыта составляет М общ = (Σx i , k )/N = 495: 16 = 30,93.

Таблица 2.1 Однофакторный дисперсионный анализ

Варианты

Урожай ячменя по повторностям, ц/га*

По повторностям (признакам) (i )

Рассмотренные выше приемы проверки статистических гипотез о существенности различий между двумя средними на практике имеют ограниченное применение. Это связано с тем, что для выявления действия всех возможных условий и факторов на результативный признак полевые и лабораторные опыты, как правило, проводят с использованием не двух, а большего числа выборок (1220 и более).

Часто исследователи сравнивают средние нескольких выборок, объединенных в единый комплекс. Например, изучая влияние различных видов и доз удобрений на урожайность сельскохозяйственных культур опыты повторяют в разных вариантах. В этих случаях попарные сравнения становятся громоздкими, а статистический анализ всего комплекса требует применения особого метода. Такой метод, разработанный в математической статистике, получил название дисперсионного анализа. Впервые его применил английский статистик Р. Фишер при обработке результатов агрономических опытов (1938 г.).

Дисперсионный анализ - это метод статистической оценки надежности проявления зависимости результативного признака от одного или нескольких факторов. С помощью метода дисперсионного анализа проводится проверка статистических гипотез относительно средних в нескольких генеральных совокупностях, имеющих нормальное распределение.

Дисперсионный анализ является одним из основных методов статистической оценки результатов эксперимента. Все более широкое применение получает он и в анализе экономической информации. Дисперсионный анализ дает возможность установить, насколько выборочные показатели связи результативного и факторных признаков достаточны для распространения полученных по выборке данных на генеральную совокупность. Достоинством этого метода является то, что он дает достаточно надежные выводы по выборкам небольшого численности.

Исследуя вариацию результативного признака под влиянием одного или нескольких факторов с помощью дисперсионного анализа можно получить помимо общих оценок существенности зависимостей, также и оценку различий в величине средних, которые формируются при различных уровнях факторов, и существенности взаимодействия факторов. Дисперсионный анализ применяется для изучения зависимостей как количественных, так и качественных признаков, а также при их сочетании.

Суть этого метода заключается в статистическом изучении вероятности влияния одного или нескольких факторов, а также их взаимодействия на результативный признак. Согласно этого с помощью дисперсионного анализа решаются три основных задачи: 1) общая оценка существенности различий между групповыми средними; 2) оценка вероятности взаимодействия факторов; 3) оценка существенности различий между парами средних. Чаще всего такие задачи приходится решать исследователям при проведении полевых и зоотехнических опытов, когда изучается влияние нескольких факторов на результативный признак.

Принципиальная схема дисперсионного анализа включает установление основных источников варьирование результативного признака и определение объемов вариации (сумм квадратов отклонений) по источникам ее образования; определение числа степеней свободы, соответствующих компонентам общей вариации; вычисления дисперсий как отношение соответствующих объемов вариации к их числу степеней свободы; анализ соотношения между дисперсиями; оценка достоверности разницы между средними и формулирование выводов.

Указанная схема сохраняется как при простых моделях дисперсионного анализа, когда данные группируются по одному признаку, так и при сложных моделях, когда данные группируются по двумя и большим числом признаков. Однако с увеличением числа групповых признаков усложняется процесс разложение общей вариации по источникам ее образования.

Согласно принципиальной схемы дисперсионный анализ можно представить в виде пяти последовательно выполняемых этапов:

1) определение и разложения вариации;

2) определение числа степеней свободы вариации;

3) вычисление дисперсий и их соотношений;

4) анализ дисперсий и их соотношений;

5) оценка достоверности разницы между средними и формулировка выводов по проверке нулевой гипотезы.

Наиболее трудоемкой частью дисперсионного анализа является первый этап - определение и разложения вариации по источникам ее образования. Порядок разложения общего объема вариации подробно рассматривался в главе 5.

В основе решения задач дисперсионного анализа лежит закон разложения (добавление) вариации, согласно которого общая вариация (колебания) результативного признака делится на две: вариацию, обусловленную действием исследуемого фактора (факторов), и вариацию, вызванную действием случайных причин, то есть

Предположим, что исследуемая совокупность поделена по факторным признаком на несколько групп, каждая из которых характеризуется своей средней величине результативного признака. При этом вариацию этих величин можно объяснить двумя видами причин: такими, которые действуют на результативный признак систематически и поддаются регулировке в ходе проводимого эксперимента и регулировке не поддаются. Очевидно, что межгрупповая (факторная или систематическая) вариация зависит преимущественно от действия исследуемого фактора, а внутригрупповая (остаточная или случайная) - от действия случайных факторов.

Чтобы оценить достоверность различий между групповыми средними, необходимо определить межгрупповую и внутригрупповое вариации. Если межгрупповая (факторная) вариация значительно превышает внутригрупповое (остаточную) вариацию, то фактор влиял на результативный признак, существенно изменяя значения групповых средних величин. Но возникает вопрос, каково соотношение между міжгруповою и внутрішньогруповою вариациями можно рассматривать как достаточное для вывода о достоверности (существенности) различий между групповыми средними.

Для оценки существенности различий между средними и формулировка выводов по проверке нулевой гипотезы (Н0:х1 = х2 =... = хп) в дисперсионном анализе используется своеобразный норматив - Г-критерий, закон распределения которого установил Р.фишер. Этот критерий представляет собой отношение двух дисперсий: факторного, порождаемой действием изучаемого фактора, и остаточной, обусловленной действием случайных причин:

Дисперсионное отношение Г= £>и : £*2 американским статистиком Снедекором предложено обозначать буквой Г в честь изобретателя дисперсионного анализа Р.Фішера.

Дисперсии °2 іо2 являются оценками дисперсии генеральной совокупности. Если выборки с дисперсиями °2 °2 сделаны из одной и той же генеральной совокупности, где вариация величин имела случайный характер, то расхождение в величинах °2 °2 также случайна.

Если в эксперименте проверяют влияние нескольких факторов (А, В, С и т.д.) на результативный признак одновременно, то дисперсия, обусловленная действием каждого из них, должна быть сравнима с °е.гР , то есть

Если значение факторной дисперсии значительно больше остаточной, то фактор существенно влиял на результативный признак и наоборот.

В многофакторных экспериментах кроме вариации, обусловленной действием каждого фактора, практически всегда есть вариация, обусловленная взаимодействием факторов ($ав: ^лс ^вс $лііс). Суть взаимодействия заключается в том, что эффект одного фактора существенно меняется на разных уровнях второго (например, эффективность качества Почвы при разных дозах удобрений).

Взаимодействие факторов также должна быть оценена путем сравнения соответствующих дисперсий 3 ^в.гр:

При исчислении фактического значения Б-критерия в числителе берется большая из дисперсий, поэтому Б > 1. Очевидно, что чем больше критерий Бы, тем значительнее различия между дисперсиями. Если Б = 1, то вопрос об оценке существенности различий дисперсий снимается.

Для определения пределов случайных колебаний отношение дисперсий Г. Фишер разработал специальные таблицы Б-распределения (прил. 4 и 5). Критерий Бы функционально связанный с вероятностью и зависит от числа степеней свободы вариации к1 и к2 двух сравниваемых дисперсий. Обычно используются две таблицы, позволяющие делать выводы о предельно высокое значение критерия для уровней значимости 0,05 и 0,01. Уровень значимости 0,05 (или 5%) означает, что только в 5 случаях из 100 критерий Б может принимать значение, равное указанному в таблице или выше его. Снижение уровня значимости с 0,05 до 0,01 приводит к увеличению значения критерия Бы между двумя дисперсиями в силу действия только случайных причин.

Значение критерия также зависит непосредственно от числа степеней свободы двух сравниваемых дисперсий. Если число степеней свободы стремится к бесконечности (к-ме), то отношение Бы для двух дисперсий стремится к единице.

Табличное значение критерия Б показывает возможную случайную величину отношения двух дисперсий при заданном уровне значимости и соответствующем числе степеней свободы для каждой из сравниваемых дисперсий. В указанных таблицах приводится величина Б для выборок, сделанных из одной и той же генеральной совокупности, где причины изменения величин только случайные.

Значение Г находят по таблицам (прил. 4 и 5) на пересечении соответствующего столбца (число степеней свободы для большей дисперсии - к1) и строки (число степеней свободы для меньшей дисперсии - к2). Так, если большей дисперсии (числитель Г) к1 = 4, а меньшей (знаменатель Г) к2 = 9, то Га при уровне значимости а = 0,05 составит 3,63 (прил. 4). Итак, в результате действия случайных причин, поскольку малочисленные выборки, дисперсия одной выборки может при 5%-ном уровне значимости превышать дисперсию для второй выборки в 3,63 раза. При снижении уровня значимости с 0,05 до 0,01 табличное значение критерия Г, как отмечалось выше, будет увеличиваться. Так, при тех же степенях свободы к1 = 4 и к2 = 9 и а = 0,01 табличное значение критерия Г составит 6,99 (прил. 5).

Рассмотрим порядок определения числа степеней свободы в дисперсионном анализе. Число степеней свободы, что соответствует общей сумме квадратов отклонений, раскладывается на соответствующие компоненты аналогично разложению сумм квадратов отклонений (^общ = №^гр + ]¥вхр) , то есть общее число степеней свободы (к") раскладывается на число степеней свободы для межгрупповой (к1) и внутригрупповой (к2) вариаций.

Так, если выборочная совокупность, состоящая из N наблюдений, деленная на т групп (число вариантов опыта) и п подгрупп (количество повторностей), то число степеней свободы к соответственно составит:

а) для общей суммы квадратов отклонений (й7заг)

б) для межгрупповой суммы квадратов отклонений ^м.гР)

в) для внутригрупповой суммы квадратов отклонений в в.гР)

Согласно правилу сложения вариации:

Например, если в опыте было сформировано четыре варианта опыта (т = 4) в пяти повторностях каждый (п = 5), и общее количество наблюдений N = = т o п = 4 * 5 = 20, то число степеней свободы соответственно равно:

Зная суммы квадратов отклонений число степеней свободы, можно определить несмещенные (скорректированные) оценки для трех дисперсий:

Нулевую гипотезу Н0 по критерию Б проверяют так же, как и по и-критерию Стьюдента. Чтобы принять решение по проверки Н0, необходимо рассчитать фактическое значение критерия и сравнить его с табличным значением Ба для принятого уровня значимости а и числа степеней свободы к1 и к2 для двух дисперсий.

Если Бфакг > Ба, то в соответствии с принятым уровнем значимости можно сделать вывод, что различия выборочных дисперсий определяются не только случайными факторами; они существенные. Нулевую гипотезу в этом случае отклоняют и есть основание утверждать, что фактор существенно влияет на результативный признак. Если же < Ба, то нулевую гипотезу принимают и есть основание утверждать, что различия между сравниваемыми дисперсиями находятся в границах возможных случайных колебаний: действие фактора на результативный признак не является существенным.

Применение той или иной модели дисперсионного анализа зависит как от количества изучаемых факторов, так и от способа формирования выборок.

в Зависимости от количества факторов, определяющих вариацию результативного признака, выборки могут быть сформированы по одним, двумя и большим числом факторов. Согласно этому дисперсионный анализ делится на однофакторный и многофакторный. Иначе его еще называют однофакторним и многофакторным дисперсионным комплексом.

Схема разложение общей вариации зависит от формирования групп. Оно может быть случайным (наблюдение одной группы не связаны с наблюдениями второй группы) и неслучайным (наблюдение двух выборок связаны между собой общностью условий эксперимента). Соответственно получают независимые и зависимые выборки. Независимые выборки могут быть сформированы как с ровной, так и неровной численностью. Формирование зависимых выборок предполагает их равную численность.

Если группы сформированы в невипадковому порядке, то общий объем вариации результативного признака включает в себя наряду с факторным (міжгруповою) и остаточной вариацией вариацию повторностей, то есть

На практике в большинстве случаев приходится рассматривать зависимые выборки, когда условия для групп и подгрупп выравниваются. Так, в полевом опыте весь участок разбивают на блоки, с максимально вирівняннями условиями. При этом каждый вариант опыта получает равные возможности быть представленным во всех блоках, чем достигается выравнивание условий для всех проверяемых вариантов, опыта. Такой метод построения опыта получил название метода рендомізованих блоков. Аналогично проводятся и опыты с животными.

При обработке методом дисперсионного анализа социально-экономических данных необходимо иметь в виду, что в силу багаточисельності факторов и их взаимосвязи трудно даже при самом тщательном выравнивании условий установить степень объективного влияния каждого отдельного фактора на результативный признак. Поэтому уровень остаточной вариации определяется не только случайными причинами, но и существенными факторами, которые не были учтены при построении модели дисперсионного анализа. В результате этого остаточная, дисперсия как база сравнения иногда становится неадекватным своему назначению, она явно завышается по величине и не может выступать как критерий существенности влияния факторов. В связи с этим при построении моделей дисперсионного анализа становится актуальной проблема отбора важнейших факторов и выравнивания условий для проявления действия каждого из них. Кроме того. применение дисперсионного анализа предполагает нормальный или близкий к нормальному распределение исследуемых статистических совокупностей. Если это условие не выдерживается, то оценки, полученные в дисперсионном анализе, окажутся преувеличенными.



Случайные статьи

Вверх