Оценка значимости уравнения регрессии в целом и его параметров. Оценка статистической значимости уравнения регрессии его параметров

ТЕМА 4. СТАТИСТИЧЕСКИЕ МЕТОДЫ ИЗУЧЕНИЯ СВЯЗЕЙ

Уравнение регрессии - этоаналитическое представление корреляционной зависимости. Уравнение регрессии описывает гипотетическую функциональную зависимость между условным средним значением результативного признака и значением признака – фактора (факторов), т.е. основную тенденцию зависимости.

Парная корреляционная зависимость описывается уравнением парной регрессии, множественная корреляционная зависимость – уравнением множественной регрессии.

Признак-результат в уравнении регрессии – это зависимая переменная (отклик, объясняемая переменная), а признак-фактор – независимая переменная (аргумент, объясняющая переменная).

Простейшим видом уравнения регрессии является уравнение парной линейной зависимости:

где y – зависимая переменная (признак-результат); x – независимая переменная (признак-фактор); и – параметры уравнения регрессии; - ошибка оценивания.

В качестве уравнения регрессии могут быть использованы различные математические функции. Частое практическое применение находят уравнения линейной зависимости, параболы, гиперболы, степной функции и др.

Как правило, анализ начинается с оценки линейной зависимости, поскольку результаты легко поддаются содержательной интерпретации. Выбор типа уравнения связи – достаточно ответственный этап анализа. В «докомпьютерную» эпоху эта процедура была сопряжена с определенными сложностями и требовала от аналитика знания свойств математических функций. В настоящее время на базе специализированных программ можно оперативно построить множество уравнений связи и на основе формальных критериев осуществить выбор лучшей модели (однако математическая грамотность аналитика не утратила своей актуальности).

Гипотезу о типе корреляционной зависимости можно выдвинуть по результатам построения поля корреляции (см. лекцию 6). Исходя из характера расположения точек на графике (координаты точек соответствуют значениям зависимой и независимой переменных), выявляется тенденция связи между признаками (показателями). Если линия регрессии проходит через все точки поля корреляции, то эта свидетельствует о функциональной связи. В практике социально-экономических исследований такую картину наблюдать не приходится, поскольку присутствует статистическая (корреляционная) зависимость. В условиях корреляционной зависимости при нанесении линии регрессии на диаграмму рассеивания наблюдается отклонение точек поля корреляции от линии регрессии, что демонстрирует, так называемые, остатки или ошибки оценивания (см. рисунок 7.1).

Наличие ошибки уравнения связано с тем, что:

§ не все факторы, влияющие на результат, учитываются в уравнении регрессии;

§ может быть неверно выбранаформа связи - уравнение регрессии;

§ не все факторы включены в уравнение.

Построить уравнение регрессии – означает рассчитать значения его параметров. Уравнение регрессии строится на основе фактических значений анализируемых признаков. Расчет параметров, как правило, выполняется с использованием метода наименьших квадратов (МНК).

Суть МНК состоит в том, что удается получить такие значения параметров уравнения, при которых минимизируется сумма квадратов отклонений теоретических значений признака-результата (рассчитанных на основе уравнения регрессии), от фактических его значений:

,

где - фактическое значение признака-результата у i-й единицы совокупности; - значение признака-результата у i-й единицы совокупности, полученное по уравнению регрессии ().

Т.о., решается задача на экстремум, то есть необходимо найти, при каких значениях параметров, функция S достигает минимума.

Проводя дифференцирование, приравнивая частные производные нулю:



, (7.3)

, (7.4)

где - среднее произведение значений фактора и результата; - среднее значение признака - фактора; - среднее значение признака -результата; - дисперсия признака-фактора.

Параметр в уравнении регрессии характеризует угол наклона линии регрессии на графике. Этот параметр называют коэффициентом регрессии и его величина характеризует, на сколько единиц своего измерения изменится признак-результат при изменении признака-фактора на единицу своего измерения. Знак при коэффициенте регрессии отражает направленность зависимости (прямая или обратная) и совпадает со знаком коэффициента корреляции (в условиях парной зависимости).

В рамках рассматриваемого примера, в программе STATISTICA рассчитаны параметры уравнения регрессии, описывающего зависимость между уровнем среднедушевых денежных доходов населения и величиной валового регионального продукта на душу населения в регионах России, см. таблицу 7.1.

Таблица 7.1 - Расчет и оценка параметров уравнения, описывающего зависимостьмежду уровнем среднедушевых денежных доходов населения и величиной валового регионального продукта на душу населения в регионах России, 2013 г.

В графе "В" таблицы содержатся значения параметров уравнения парной регрессии, следовательно, можно записать: = 13406,89 + 22,82 x.Данное уравнение описывает тенденцию связи между анализируемыми характеристиками. Параметр - это коэффициент регрессии. В данном случае он равен 22,82 и характеризует следующее: при увеличении ВРП на душу населения на 1 тыс.рублей среднедушевые денежные доходы в среднем возрастают (на что указывает знак "+") на 22,28 руб.

Параметр уравнения регрессии в социально-экономических исследованиях, как правило, содержательно не интерпретируется. Формально он отражает величину признака - результата при условии, что признак - фактор равен нулю. Параметр характеризует расположение линии регрессии на графике, см. рисунок 7.1.

Рисунок 7.1 - Поле корреляции и линия регрессии, отражающие зависимость уровня среднедушевых денежных доходов населения в регионах России и величины ВРП на душу населения

Значение параметра соответствует точке пересечения линии регрессии с осью Y, при X=0.

Построение уравнения регрессии сопровождается оценкой статистической значимости уравнения в целом и его параметров. Необходимость таких процедур связана с ограниченным объемом данных, что может препятствовать действию закона больших чисел и, следовательно, выявлению истинной тенденции во взаимосвязи анализируемых показателей. Кроме того, любую исследуемую совокупность можно рассматривать как выборку из генеральной совокупности, а характеристики, полученные в ходе анализа, как оценку генеральных параметров.

Оценка статистической значимости параметров и уравнения в целом – это обоснование возможности использования построенной модели связи для принятия управленческих решений и прогнозирования (моделирования).

Статистическая значимость уравнения регрессии в целом оценивается с использованием F-критерия Фишера , который представляет собой отношение факторной и остаточных дисперсий, рассчитанных на одну степень свободы:

где - факторная дисперсия признака - результата; k – число степеней свободы факторной дисперсии (число факторов в уравнении регрессии); - среднее значение зависимой переменной; - теоретическое (полученной по уравнению регрессии) значение зависимой переменной у i – й единицы совокупности; - остаточная дисперсии признака - результата; n – объем совокупности; n-k-1 – число степеней свободы остаточной дисперсии.

Величина F-критерия Фишера, согласно формуле, характеризует соотношение между факторной и остаточной дисперсиями зависимой переменной, демонстрируя, по существу, во сколько раз величина объясненной части вариации превышает необъясненную.

F-критерий Фишера табулирован, входом в таблицу является число степеней свободы факторной и остаточной дисперсий. Сравнение расчетного значения критерия с табличным (критическим) позволяет ответить на вопрос: статистически значима ли та часть вариации признака-результата, которую удается объяснить факторами, включенными в уравнение данного вида. Если , то уравнение регрессии признается статистически значимым и, соответственно, статистически значим и коэффициент детерминации. В противном случае (), уравнение – статистически незначимо, т.е. вариация учтенных в уравнении факторов не объясняет статистически значимой части вариации признака-результата, либо не верно выбрано уравнение связи.

Оценка статистической значимости параметров уравнения осуществляется на основе t-статистики , которая рассчитывается как отношение модуля параметров уравнения регрессии к их стандартным ошибкам ():

, где ; (7.6)

, где ; (7.7)

где - стандартные отклонения признака - фактора и признака - результата; - коэффициент детерминации.

В специализированных статистических программах расчет параметров всегда сопровождается расчетом значений их стандартных (среднеквадратических) ошибок и t-статистики (см. таблицу 7.1). Расчетное значение t-статистики сравнивается с табличным, если объем изучаемой совокупности менее 30 единиц (безусловно малая выборка), следует обратиться к таблице t- распределения Стьюдента, если объем совокупности большой, следует воспользоваться таблицей нормального распределения (интеграла вероятностей Лапласа). Параметр уравнения признается статистически значимым, если.

Оценка параметров на основе t-статистики, по существу, является проверкой нулевой гипотезы о равенстве генеральных параметров нулю (H 0: =0; H 0: =0;), то есть о статистически не значимой величине параметров уравнения регрессии. Уровень значимости гипотезы, как правило, принимается: = 0,05. Если расчетный уровень значимости меньше 0,05 , то нулевая гипотеза отвергается и принимается альтернативная - о статистической значимости параметра.

Продолжим рассмотрение примера. В таблице 7.1 в графе «B» приведены значения параметров, в графе Std.Err.ofB - величины стандартных ошибок параметров (), в графе t(77 – число степеней свободы) рассчитаны значения t - статистики с учетом числа степеней свободы. Для оценки статистической значимости параметров расчетные значения t - статистик необходимо сравнить с табличным значением. Заданному уровню значимости (0,05) в таблице нормального распределения соответствует t = 1,96. Поскольку 18,02, 10,84, т.е. , следует признать статистическую значимость полученных значений параметров, т.е. эти значения сформированы под влиянием не случайных факторов и отражают тенденцию связи между анализируемыми показателями.

Для оценки статистической значимости уравнения в целом обратимся к значению F-критерия Фишера (см. таблицу 7.1). Расчетное значение F-критерия = 117,51, табличное значение критерия, исходя из соответствующего числа степеней свободы (для факторной дисперсии d.f. =1, для остаточной дисперсииd.f. =77), равно 4,00 (см. приложение.....). Таким образом, , следовательно, уравнение регрессии в целом статистически значимо. В такой ситуации можно говорить и о статистической значимости величины коэффициента детерминации, т.е. вариация среднедушевых доходов населения в регионах России на 60 процентов может быть объяснена вариацией объемов валового регионального продукта на душу населения.

Проводя оценку статистической значимости уравнения регрессии и его параметров, можем получить различное сочетание результатов.

· Уравнение по F-критерию статистически значимо и все параметры уравнения по t-статистике тоже статистически значимы. Данное уравнение может быть использовано как для принятия управленческих решений (на какие факторы следует воздействовать, чтобы получить желаемый результат), так и для прогнозирования поведения признака-результата при тех или иных значениях факторов.

· По F-критерию уравнение статистически значимо, но незначимы параметры (параметр) уравнения. Уравнение может быть использовано для принятия управленческих решений (касающихся тех факторов, по которым получено подтверждение статистической значимости их влияния), но уравнение не может быть использовано для прогнозирования.

· Уравнение по F-критерию статистически незначимо. Уравнение не может быть использовано. Следует продолжить поиск значимых признаков-факторов или аналитической формы связи аргумента и отклика.

Если подтверждена статистическая значимость уравнения и его параметров, то может быть реализован, так называемый, точечный прогноз, т.е. получена оценка значения признака-результата (y) при тех или иных значениях фактора (x).

Совершенно очевидно, что прогнозное значение зависимой переменной, рассчитанное на основе уравнения связи, не будет совпадать с фактическим ее значением ().Графически эта ситуация подтверждается тем, что не все точки поля корреляции лежат на линии регрессии,лишь при функциональной связи линия регрессии пройдет через все точки диаграммы рассеивания. Наличие расхождений между фактическими и теоретическими значениями зависимой переменной связано, прежде всего, с самой сутью корреляционной зависимости:одновременно на результат воздействует множество факторов, из которых только часть может быть учтена в конкретном уравнении связи. Кроме того, может быть неверно выбрана форма связи результата и фактора (тип уравнения регрессии). В связи с этим возникает вопрос, насколько информативно построенное уравнение связи. На этот вопрос отвечают два показателя: коэффициент детерминации (о нем уже говорилось выше) и стандартная ошибка оценивания.

Разность между фактическими и теоретическими значениями зависимой переменной называют отклонениями или ошибками, или остатками . На основе этих величин рассчитывается остаточная дисперсия. Квадратный корень из остаточной дисперсии и является среднеквадратической (стандартной) ошибкой оценивания:

= (7.8)

Стандартная ошибка уравнения измеряется в тех же единицах, что и прогнозируемый показатель. Если ошибки уравнения подчиняются нормальному распределению (при больших объемах данных), то 95 процентов значений должны находиться от линии регрессии на расстоянии, не превышающем 2S (исходя из свойства нормального распределения - правила трех сигм). Величина стандартной ошибки оценивания используется при расчете доверительных интервалов при прогнозировании значения признака - результата для конкретной единицы совокупности.

В практических исследованиях часто возникает необходимость в прогнозе среднего значения признака - результата при том или ином значении признака - фактора. В этом случае в расчете доверительного интервала для среднего значения зависимой переменной()

учитывается величина средней ошибки:

(7.9)

Использование разных величин ошибок объясняется тем, что изменчивость уровней показателей у конкретных единиц совокупности гораздо выше, чем изменчивость среднего значения, следовательно, ошибка прогноза среднего значения меньше.

Доверительный интервал прогноза среднего значения зависимой переменной:

, (7.10)

где - предельная ошибка оценки (см. теорию выборки); t – коэффициент доверия, значение которого находится в соответствующей таблице, исходя из принятого исследователем уровня вероятности (числа степеней свободы) (см. теорию выборки).

Доверительный интервал для прогнозируемого значения признака-результата может быть рассчитан и с учетом поправки на смещение (сдвиг) линии регрессии. Величина поправочного коэффициента определяется:

(7.11)

где - значение признака-фактора, исходя из которого, прогнозируется значение признака-результата.

Отсюда следует, что чем больше значение отличается от среднего значения признака-фактора, тем больше величина корректирующего коэффициента, тем больше ошибка прогноза. С учетом данного коэффициента доверительный интервал прогноза будет рассчитываться:

На точность прогноза на основе уравнения регрессии могут влиять разные причины. Прежде всего, следует учитывать, что оценка качества уравнения и его параметров проводится, исходя из предположения о нормальном распределении случайных остатков. Нарушение этого допущения может быть связано с наличием резко отличающихся значений в данных, с неравномерной вариацией, с наличием нелинейной зависимости. В этом случае качество прогноза снижается. Второй момент, о котором следует помнить, - значения факторов, учитываемые при прогнозировании результата, не должны выходить за пределы размаха вариации данных, на основе которых построено уравнение.

©2015-2019 сайт
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2018-01-08

100 р бонус за первый заказ

Выберите тип работы Дипломная работа Курсовая работа Реферат Магистерская диссертация Отчёт по практике Статья Доклад Рецензия Контрольная работа Монография Решение задач Бизнес-план Ответы на вопросы Творческая работа Эссе Чертёж Сочинения Перевод Презентации Набор текста Другое Повышение уникальности текста Кандидатская диссертация Лабораторная работа Помощь on-line

Узнать цену

После того как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров . Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации : Средняя ошибка аппроксимации не должна превышать 8–10%.

Оценка значимости уравнения регрессии в целом производится на основе F -критерия Фишера , которому предшествует дисперсионный анализ. Согласно основной идее дисперсионного анализа, общая сумма квадратов отклонений переменной y от среднего значения y раскладывается на две части – «объясненную» и «необъясненную»: где – общая сумма квадратов отклонений; – сумма квадратов отклонений, объясненная регрессией (или факторная сумма квадратов отклонений); – остаточная сумма квадратов отклонений, характеризующая влияние неучтенных в модели факторов. Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F -критерия Фишера: Фактическое значение F -критерия Фишера сравнивается с

табличным значением F табл(a; k 1; k 2) при уровне значимости a и степенях свободы k 1 = m и k 2= n -m -1.При этом, если фактическое значение F - критерия больше табличного, то признается статистическая значимость уравнения в целом.

Для парной линейной регрессии m =1, поэтому

Величина F -критерия связана с коэффициентом детерминации R2 ее можно рассчитать по следующей формуле:

В парной линейной регрессии оценивается значимость не только уравнения в целом, но и отдельных его параметров . С этой целью по каждому из параметров определяется его стандартная ошибка: m b и m a . Стандартная ошибка коэффициента регрессии определяется по формуле:, где

Величина стандартной ошибки совместно с t –распределением Стьюдента при n -2 степенях свободы применяется для проверки существенности коэффициента регрессии и для расчета его доверительного интервала. Для оценки существенности коэффициента регрессии его величина сравнивается с его стандартной ошибкой, т.е. определяется фактическое значение t -критерия Стьюдента: которое затем сравнивается с табличным значением при определенном уровне значимости a и числе степеней свободы (n-2). Доверительный интервал для коэффициента регрессии определяется как b ± t табл ×mb . Поскольку знак коэффициента регрессии указывает на рост результативного признака y при увеличении признака-фактора x (b >0), уменьшение результативного признака при увеличении признака-фактора (b <0) или его независимость от независимой переменной (b =0), то границы доверительного интервала для коэффициента регрессии не должны содержать противоречивых результатов, например, -1,5 £ b £ 0,8. Такого рода запись указывает, что истинное значение коэффициента регрессии одновременно содержит положительные и отрицательные величины и даже ноль, чего не может быть.

Стандартная ошибка параметра a определяется по формуле: Процедура оценивания существенности данного параметра не отличается от рассмотренной выше для коэффициента регрессии. Вычисляется t -критерий: , его величина сравнивается с табличным значением при n - 2 степенях свободы.


После того как уравнение регрессии построено и с помощью коэффициента детерминации оценена его точность, остается открытым вопрос за счет чего достигнута эта точность и соответственно можно ли этому уравнению доверять. Дело в том, что уравнение регрессии строилось не по генеральной совокупности, которая неизвестна, а по выборке из нее. Точки из генеральной совокупности попадают в выборку случайным образом, по этому в соответствии с теорией вероятности среди прочих случаев возможен вариант, когда выборка из “широкой” генеральной совокупности окажется “узкой” (рис. 15).

Рис. 15. Возможный вариант попадания точек в выборку из генеральной совокупности.

В этом случае:

а) уравнение регрессии, построенное по выборке, может значительно отличаться от уравнения регрессии для генеральной совокупности, что приведет к ошибкам прогноза;

б) коэффициент детерминации и другие характеристики точности окажутся неоправданно высокими и будут вводить в заблуждение о прогнозных качествах уравнения.

В предельном случае не исключен вариант, когда из генеральной совокупности представляющей собой облако с главной осью параллельной горизонтальной оси (отсутствует связь между переменными) за счет случайного отбора будет получена выборка, главная ось которой окажется наклоненной к оси. Таким образом, попытки прогнозировать очередные значения генеральной совокупности опираясь на данные выборки из нее чреваты не только ошибками в оценке силы и направления связи между зависимой и независимой переменными, но и опасностью найти связь между переменными там, где на самом деле ее нет.

В условиях отсутствия информации обо всех точках генеральной совокупности единственный способ уменьшить ошибки в первом случае заключается в использовании при оценке коэффициентов уравнения регрессии метода, обеспечивающего их несмещенность и эффективность. А вероятность наступления второго случая может быть значительно снижена благодаря тому, что априори известно одно свойство генеральной совокупности с двумя независимыми друг от друга переменными – в ней отсутствует именно эта связь. Достигается это снижение за счет проверки статистической значимости полученного уравнения регрессии.

Один из наиболее часто используемых вариантов проверки заключается в следующем. Для полученного уравнения регрессии определяется
-статистика
- характеристика точности уравнения регрессии, представляющая собой отношение той части дисперсии зависимой переменной которая объяснена уравнением регрессии к необъясненной (остаточной) части дисперсии. Уравнение для определения
-статистики в случае многомерной регрессии имеет вид:

где:
- объясненная дисперсия - часть дисперсии зависимой переменнойYкоторая объяснена уравнением регрессии;

-остаточная дисперсия - часть дисперсии зависимой переменнойYкоторая не объяснена уравнением регрессии, ее наличие является следствием действия случайной составляющей;

- число точек в выборке;

- число переменных в уравнении регрессии.

Как видно из приведенной формулы, дисперсии определяются как частное от деления соответствующей суммы квадратов на число степеней свободы. Число степеней свободы это минимально необходимое число значений зависимой переменной, которых достаточно для получения искомой характеристики выборки и которые могут свободно варьироваться с учетом того, что для этой выборки известны все другие величины, используемые для расчета искомой характеристики.

Для получения остаточной дисперсии необходимы коэффициенты уравнения регрессии. В случае парной линейной регрессии коэффициентов два, по этому в соответствии с формулой (принимая
) число степеней свободы равно
. Имеется в виду, что для определения остаточной дисперсии достаточно знать коэффициенты уравнения регрессии и только
значений зависимой переменной из выборки. Оставшиеся два значения могут быть вычислены на основании этих данных, а значит, не являются свободно варьируемыми.

Для вычисления объясненной дисперсии значений зависимой переменной вообще не требуются, так как ее можно вычислить, зная коэффициенты регрессии при независимых переменных и дисперсию независимой переменной. Для того чтобы убедиться в этом, достаточно вспомнить приводившееся ранее выражение
. По этому число степеней свободы для остаточной дисперсии равно числу независимых переменных в уравнении регрессии (для парной линейной регрессии
).

В результате
-критерий для уравнения парной линейной регрессии определяется по формуле:

.

В теории вероятности доказано, что
-критерий уравнения регрессии, полученного для выборки из генеральной совокупности у которой отсутствует связь между зависимой и независимой переменной имеет распределение Фишера, достаточно хорошо изученное. Благодаря этому для любого значения
-критерия можно рассчитать вероятность его появления и наоборот, определить то значение
-критерия которое он не сможет превысить с заданной вероятностью.

Для осуществления статистической проверки значимости уравнения регрессии формулируется нулевая гипотеза об отсутствии связи между переменными (все коэффициенты при переменных равны нулю) и выбирается уровень значимости.

Уровень значимости – это допустимая вероятность совершитьошибку первого рода – отвергнуть в результате проверки верную нулевую гипотезу. В рассматриваемом случае совершить ошибку первого рода означает признать по выборке наличие связи между переменными в генеральной совокупности, когда на самом деле ее там нет.

Обычно уровень значимости принимается равным 5% или 1%. Чем выше уровень значимости (чем меньше
), тем вышеуровень надежности теста, равный
, т.е. тем больше шанс избежать ошибки признания по выборке наличия связи у генеральной совокупности на самом деле несвязанных между собой переменных. Но с ростом уровня значимости возрастает опасность совершенияошибки второго рода – отвергнуть верную нулевую гипотезу, т.е. не заметить по выборке имеющуюся на самом деле связь переменных в генеральной совокупности. По этому, в зависимости от того, какая ошибка имеет большие негативные последствия, выбирают тот или иной уровень значимости.

Для выбранного уровня значимости по распределению Фишера определяется табличное значение
вероятность превышения, которого в выборке мощностью, полученной из генеральной совокупности без связи между переменными, не превышает уровня значимости.
сравнивается с фактическим значением критерия для регрессионного уравнения.

Если выполняется условие
, то ошибочное обнаружение связи со значением
-критерия равным или большимпо выборке из генеральной совокупности с несвязанными между собой переменными будет происходить с вероятностью меньшей чем уровень значимости. В соответствии с правилом “очень редких событий не бывает”, приходим к выводу, что установленная по выборке связь между переменными имеется и в генеральной совокупности, из которой она получена.

Если же оказывается
, то уравнение регрессии статистически не значимо. Иными словами существует реальная вероятность того, что по выборке установлена не существующая в реальности связь между переменными. К уравнению, не выдержавшему проверку на статистическую значимость, относятся так же, как и к лекарству с истекшим сроком годнос- ти – такие лекарства не обязательно испорчены, но раз нет уверенности в их качестве, то их предпочитают не использовать. Это правило не уберегает от всех ошибок, но позволяет избежать наиболее грубых, что тоже достаточно важно.

Второй вариант проверки, более удобный в случае использования электронных таблиц, это сопоставление вероятности появления полученного значения
-критерия с уровнем значимости. Если эта вероятность оказывается ниже уровня значимости
, значит уравнение статистически значимо, в противном случае нет.

После того как выполнена проверка статистической значимости регрессионного уравнения в целом полезно, особенно для многомерных зависимостей осуществить проверку на статистическую значимость полученных коэффициентов регрессии. Идеология проверки такая же как и при проверке уравнения в целом но в качестве критерия используется -критерий Стьюдента , определяемый по формулам:

и

где: , - значения критерия Стьюдента для коэффициентовисоответственно;

- остаточная дисперсия уравнения регрессии;

- число точек в выборке;

- число переменных в выборке, для парной линейной регрессии
.

Полученные фактические значения критерия Стьюдента сравниваются с табличными значениями
, полученными из распределения Стьюдента. Если оказывается, что
, то соответствующий коэффициент статистически значим, в противном случае нет. Второй вариант проверки статистической значимости коэффициентов – определить вероятность появления критерия Стьюдента
и сравнить с уровнем значимости
.

Для переменных, чьи коэффициенты оказались статистически не значимы, велика вероятность того, что их влияние на зависимую переменную в генеральной совокупности вообще отсутствует. По этому или необходимо увеличить число точек в выборке, тогда возможно коэффициент станет статистически значимым и заодно уточнится его значение, или в качестве независимых переменных найти другие, более тесно связанные с зависимой переменной. Точность прогнозирования при этом в обоих случаях возрастет.

В качестве экспрессного метода оценки значимости коэффициентов уравнения регрессии можно применять следующее правило – если критерий Стьюдента больше 3, то такой коэффициент, как правило, оказывается статистически значим. А вообще считается, что для получения статистически значимых уравнений регрессии необходимо, чтобы выполнялось условие
.

Стандартная ошибка прогнозирования по полученному уравнению регрессии неизвестного значения
при известном
оценивают по формуле:

Таким образом прогноз с доверительной вероятностью 68% может быть представлен в виде:

В случае если требуется иная доверительная вероятность
, то для уровня значимости
необходимо найти критерий Стьюдента
идоверительный интервал для прогноза с уровнем надежности
будет равен
.

Прогнозирование многомерных и нелинейных зависимостей

В случае если прогнозируемая величина зависит от нескольких независимых переменных, то в этом случае имеется многомерная регрессия вида:

где:
- коэффициенты регрессии, описывающие влияние переменных
на прогнозируемую величину.

Методика определения коэффициентов регрессии не отличается от парной линейной регрессии, особенно при использовании электронной таблицы, так как там применяется одна и та же функция и для парной и для многомерной линейной регрессии. При этом желательно чтобы между независимыми переменными отсутствовали взаимосвязи, т.е. изменение одной переменной не сказывалось на значениях других переменных. Но это требование не является обязательным, важно чтобы между переменными отсутствовали функциональные линейные зависимости. Описанные выше процедуры проверки статистической значимости полученного уравнения регрессии и его отдельных коэффициентов, оценка точности прогнозирования остается такой же как и для случая парной линейной регрессии. В тоже время применение многомерных регрессий вместо парной обычно позволяет при надлежащем выборе переменных существенно повысить точность описания поведения зависимой переменной, а значит и точность прогнозирования.

Кроме этого уравнения многомерной линейной регрессии позволяют описать и нелинейную зависимость прогнозируемой величины от независимых переменных. Процедура приведения нелинейного уравнения к линейному виду называется линеаризацией . В частности если эта зависимость описывается полиномом степени отличной от 1, то, осуществив замену переменных со степенями отличными от единицы на новые переменные в первой степени, получаем задачу многомерной линейной регрессии вместо нелинейной. Так, например если влияние независимой переменной описывается параболой вида

то замена
позволяет преобразовать нелинейную задачу к многомерной линейной вида

Так же легко могут быть преобразованы нелинейные задачи у которых нелинейность возникает вследствие того, что прогнозируемая величина зависит от произведения независимых переменных. Для учета такого влияния необходимо ввести новую переменную равную этому произведению.

В тех случаях, когда нелинейность описывается более сложными зависимостями, линеаризация возможна за счет преобразования координат. Для этого рассчитываются значения
и строятся графики зависимости исходных точек в различных комбинациях преобразованных переменных. Та комбинация преобразованных координат или преобразованных и не преобразованных координат, в которой зависимость ближе всего к прямой линии подсказывает замену переменных которая приведет к преобразованию нелинейной зависимости к линейному виду. Например, нелинейная зависимость вида

превращается в линейную вида

где:
,
и
.

Полученные коэффициенты регрессии для преобразованного уравнения остаются несмещенными и эффективными, но проверка статистической значимости уравнения и коэффициентов невозможна

Проверка обоснованности применения метода наименьших квадратов

Применение метода наименьших квадратов обеспечивает эффективность и несмещенность оценок коэффициентов уравнения регрессии при соблюдении следующих условий (условий Гауса -Маркова ):

1.

2.

3. значения не зависят друг от друга

4. значения не зависят от независимых переменных

Наиболее просто можно проверить соблюдение этих условий путем построения графиков остатков
в зависимости от, затем от независимой (независимых) переменных. Если точки на этих графиках расположены в коридоре расположенном симметрично оси абсцисс и в расположении точек не просматриваются закономерности, то условия Гауса-Маркова выполнены и возможности повысить точность уравнения регрессии отсутствуют. Если это не так, то существует возможность существенно повысить точность уравнения и для этого необходимо обратиться к специальной литературе.

Проверку значимости уравнения регрессии произведем на основе

F-критерия Фишера:

Значение F-критерия Фишера можно найти в таблице Дисперсионный анализ протокола Еxcel. Табличное значение F-критерия при доверительной вероятности α = 0,95 и числе степеней свободы, равном v1 = k = 2 и v2 = n – k – 1= 50 – 2 – 1 = 47, составляет 0,051.

Поскольку Fрасч > Fтабл, уравнение регрессии следует признать значимым, то есть его можно использовать для анализа и прогнозирования.

Оценку значимости коэффициентов полученной модели, используя результаты отчета Excel, можно осуществить тремя способами.

Коэффициент уравнения регрессии признается значимым в том случае, если:

1) наблюдаемое значение t-статистики Стьюдента для этого коэффициента больше, чем критическое (табличное) значение статистики Стьюдента (для заданного уровня значимости, например α = 0,05, и числа степеней свободы df = n – k – 1, где n – число наблюдений, а k – число факторов в модели);

2) Р-значение t-статистики Стьюдента для этого коэффициента меньше, чем уровень значимости, например, α = 0,05;

3) доверительный интервал для этого коэффициента, вычисленный с некоторой доверительной вероятностью (например, 95%), не содержит ноль внутри себя, то есть нижняя 95% и верхняя 95% границы доверительного интервала имеют одинаковые знаки.

Значимость коэффициентов a 1 и a 2 проверим по второму и третьему способам:

P-значение (a 1 ) = 0,00 < 0,01 < 0,05.

Р-значение (a 2 ) = 0,00 < 0,01 < 0,05.

Следовательно, коэффициенты a 1 и a 2 значимы при 1%-ном уровне, а тем более при 5%-ном уровне значимости. Нижние и верхние 95% границы доверительного интервала имеют одинаковые знаки, следовательно, коэффициенты a 1 и a 2 значимы.

Определение объясняющей переменной, от которой

Может зависеть дисперсия случайных возмущений.

Проверка выполнения условия гомоскедастичности

Остатков по тесту Гольдфельда–Квандта

При проверке предпосылки МНК о гомоскедастичности остатков в модели множественной регрессии следует вначале определить, по отношению к какому из факторов дисперсия остатков более всего нарушена. Это можно сделать в результате визуального исследования графиков остатков, построенных по каждому из факторов, включенных в модель. Та из объясняющих переменных, от которой больше зависит дисперсия случайных возмущений, и будет упорядочена по возрастанию фактических значений при проверке теста Гольдфельда–Квандта. Графики легко получить в отчете, который формируется в результате использования инструмента Регрессия в пакете Анализ данных).

Графики остатков по каждому из факторов двухфакторной модели

Из представленных графиков видно, что дисперсия остатков более всего нарушена по отношению к фактору Краткосрочная дебиторская задолженность.

Проверим наличие гомоскедастичности в остатках двухфакторной модели на основе теста Гольдфельда–Квандта.

    Упорядочим переменные Y и X2 по возрастанию фактора Х4 (в Excel для этого можно использовать команду Данные – Сортировка по возрастанию Х4):

    Данные, отсортированные по возрастанию X4:

  1. Уберем из середины упорядоченной совокупности С = 1/4 · n = 1/4 · 50 = 12,5 (12) значения. В результате получим две совокупности соответственно с малыми и большими значениями Х4.

    Для каждой совокупности выполним расчеты:

Сумма

111234876536,511

966570797682,068

455748832843,413

232578961097,877

834043911651,192

193722998259,505

1246409153509,290

31419681912489,100

2172804245053,280

768665257272,099

2732445494273,330

163253156450,331

18379855056009,900

10336693841766,000

Сумма

69977593738424,600

Уравнения для совокупностей

Y = -27275,746 + 0,126X2 + 1,817 X4

Y = 61439,511 + 0,228X2 + 0,140X4

Результаты данной таблицы получены с помощью инструмента Регрессия поочередно к каждой из полученных совокупностей.

4. Найдем отношение полученных остаточных сумм квадратов

(в числителе должна быть большая сумма):

5. Вывод о наличии гомоскедастичности остатков делаем с помощью F-критерия Фишера с уровнем значимости α = 0,05 и двумя одинаковыми степенями свободы k1 = k2 = == 17

где р – число параметров уравнения регрессии:

Fтабл (0,05; 17; 17) = 9,28.

Так как Fтабл > R ,то подтверждается гомоскедастичность в остатках двухфакторной регрессии.

Для оценки существенности, значимости коэффициента корреляции используется t-критерий Стьюдента.

Находится средняя ошибка коэффициента корреляции по формуле:

Н
а основе ошибки рассчитываетсяt-критерий:

Рассчитанное значение t-критерия сравнивают с табличным, найденным в таблице распределения Стьюдента при уровне значимости 0,05 или 0,01 и числе степеней свободы n-1. Если расчетное значение t-критерия больше табличного, то коэффициент корреляции признается значимым.

При криволинейной связи для оценки значимости корреляционного отношения и уравнения регрессии применяется F-критерий. Он вычисляется по формуле:

или

где η – корреляционное отношение; n – число наблюдений; m – число параметров в уравнении регрессии.

Рассчитанное значение F сравнивается с табличным для принятого уровня значимости α (0,05 или 0,01) и чисел степеней свободы к 1 =m-1 и k 2 =n-m. Если расчетное значение F превышает табличное, связь признается существенной.

Значимость коэффициента регрессии устанавливается с помощью t-критерия Стьюдента, который вычисляется по формуле:

где σ 2 а i - дисперсия коэффициента регрессии.

Она вычисляется по формуле:

где к – число факторных признаков в уравнении регрессии.

Коэффициент регрессии признается значимым, если t a 1 ≥t кр. t кр отыскивается в таблице критических точек распределения Стьюдента при принятом уровне значимости и числе степеней свободы k=n-1.

4.3.Корреляционно-регрессионный анализ в Excel

Проведём корреляционно-регрессионный анализ взаимосвязи урожайности и затрат труда на 1 ц зерна. Для этого открываем лист Excel, в ячейки А1:А30 вводим значения факторного признака урожайности зерновых культур, в ячейки В1:В30 значения результативного признака – затраттруда на 1 ц зерна. В меню Сервис выберем опцию Анализ данных. Щелкнув левой кнопкой мыши по этому пункту, откроем инструмент Регрессия. Щелкаем по кнопке OK, на экране появляется диалоговое окно Регрессия. В поле Входной интервал У вводим значения результативного признака (выделяя ячейки В1:В30), в поле Входной интервал Х вводим значения факторного признака (выделяя ячейки А1:А30). Отмечаем уровень вероятности 95%, выбираем Новый рабочий лист. Щелкаем по кнопке OK. На рабочем листе появляется таблица «ВЫВОД ИТОГОВ», в которой даны результаты вычисления параметров уравнения регрессии, коэффициента корреляции и другие показатели, позволяющие определить значимость коэффициента корреляции и параметров уравнения регрессии.

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

R-квадрат

Нормированный R-квадрат

Стандартная ошибка

Наблюдения

Дисперсионный анализ

Значимость F

Регрессия

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Нижние 95,0%

Верхние 95,0%

Y-пересечение

Переменная X 1

В данной таблице «Множественный R» - это коэффициент корреляции, «R-квадрат» - коэффициент детерминации. «Коэффициенты: Y-пересечение» - свободный член уравнения регрессии 2,836242; «Переменная Х1» – коэффициент регрессии -0,06654. Здесь имеются также значения F-критерия Фишера 74,9876, t-критерия Стьюдента 14,18042, «Стандартная ошибка 0,112121», которые необходимы для оценки значимости коэффициента корреляции, параметров уравнения регрессии и всего уравнения.

На основе данных таблицы построим уравнение регрессии: у х =2,836-0,067х. Коэффициент регрессии а 1 =-0,067 означает, что с повышением урожайности зерновых на 1 ц/га затраты труда на 1 ц зерна уменьшаются на 0,067 чел.-ч.

Коэффициент корреляции r=0,85>0,7, следовательно, связь между изучаемыми признаками в данной совокупности тесная. Коэффициент детерминации r 2 =0,73 показывает, что 73% вариации результативного признака (затрат труда на 1 ц зерна) вызвано действием факторного признака (урожайности зерновых).

В таблице критических точек распределения Фишера - Снедекора найдём критическое значение F-критерия при уровне значимости 0,05 и числе степеней свободы к 1 =m-1=2-1=1 и k 2 =n-m=30-2=28, оно равно 4,21. Так как рассчитанное значение критерия больше табличного (F=74.9896>4,21), то уравнение регрессии признаётся значимым.

Для оценки значимости коэффициента корреляции рассчитаем t-критерий Стьюдента:

В
таблице критических точек распределения Стьюдента найдём критическое значениеt-критерия при уровне значимости 0,05 и числе степеней свободы n-1=30-1=29, оно равно 2,0452. Так как расчётное значение больше табличного, то коэффициент корреляции является значимым.