« Темы для новых постов | Main | Что такое "кривая обучения" (learning curve) »

March 26, 2005

Простая Линейная Регрессия, Часть 2

Первая Часть

В Части 1, мы получили уравнение линейной регрессии для следующей задачи:

Некая фирма решила использовать модель линейной регрессии для определения зависимости вида y = a + bx между годовым объемом продаж и годовыми расходами на рекламу. За предшествующие годы была собрана следующая статистика.

Мы получили уравнение линейной регрессии:

y = f(x) = 4.2 + 0.31x

Пусть y' есть среднее арифметическое результатов наблюдений, т.е.

y' = (y1 + y2 + y3 + y4 + y5)/5

1. Оценка дисперсии случайной ошибки (оценка дисперсии годового объема продаж) S2 равна:
variance_of_estimate.gif

где n = 5 число наблюдений, k = 1 число независимых переменных в модели линейной регрессии (у нас только x).
n-k-1 называют количеством степеней свободы.

Получаем S2 = 2.624

Величину S называют стандартной ошибкой регрессии, она равно квадратному корню из величины S2. В нашем примере, стандартная ошибка регрессии
S = 1.62

2. Дисперсия регрессионного коэффициента a равна Sa2:

variance_of_a.gif

Sa2 = 6.216

Sa - стандартная ошибка регрессионного коэффициента a равна квадратному корню из дисперсии a , то есть
Sa = 2.49

3. Дисперсия регрессионного коэффициента b равна Sb2:

variance_of_b.gif

Sb2 = 0.002332

Sb - стандартная ошибка регрессионного коэффициента b равна квадратному корню из дисперсии b , то есть
Sb = 0.0483

4. Коэффициент детерминации r2:
determination.gif

r2 = 0.9328

r - коэффициент корреляции, r = 0.9658

Коэффициент корреляции показывает силу линейной зависимости между зависимой переменной х и независимой переменной у. Значение r=1 (-1) свидетельствует о прямой (обратной) линейной зависимости между x и y. Коэффициент корреляции r = 0 свидетельствует об отсутствии линейной зависимости между переменными.

Коэффициент детерминации r2 интерпретируется как процент дисперсии зависимой переменной y, объясненный дисперсией независимой переменной x. То есть дисперсия годовых продаж равна 93.28% от дисперсии годовых расходов на рекламу.

5. Доверительный интервал для значений параметра b (совершенно аналогично для других параметров):
interval.gif

Если мы хотим построить 90%-ный доверительный интервал для b, нам нужно табличное t- значение статистики Стьюдента (t - критерий Стьюдента):
t(5-1-1,(1-0.90)/2) = t(3 , 0.05) =2.35

Таким образом, фирма может быть на 90% уверена, что значение параметра b будет в пределах доверительных границ:

(0.1965; 0.4235)

Доверительный интервал с уверенностью "на две трети" лежит (приблизительно) в пределах одной стандартной ошибки от среднего. Таким образом, если расходы на рекламу составят $40 000 (40 тысяч) в год, то с вероятностью 2/3 годовые продажи попадут в интервал:

( 4.2+0.31*40 – 1.62; 4.2+0.31*40 + 1.62)
или
(14.98; 18.22)
или
($14 980 000; $18 220 000).


Предыдущая часть

Posted by mazoo at March 26, 2005 2:03 PM




Статьи по теме:


Comments

Очень полезная и удобно структурированная информация: нашла всё, что нужно и именно в том аспекте, который искала. Спасибо!

Posted by: Наталья at September 7, 2005 10:07 PM

Спасибо, Наталья, бальзам на душу :-)
Надеюсь, у меня скоро появится больше времени для ведения этого блога...

Posted by: Mazoo at September 8, 2005 10:20 AM

Автору огромное скиновское спасибо!!!! Готовился к контрольной - очень помогло!! Oi! Oi! Oi!

Posted by: Nick_Skinhead at November 7, 2006 3:01 PM

просто супер, для заочника это просто клад с брилиантами, большое СПАСИБО

Posted by: натали at July 2, 2007 12:58 PM

Post a comment




Remember Me?