« Темы для новых постов | Main | Что такое "кривая обучения" (learning curve) »
March 26, 2005
Простая Линейная Регрессия, Часть 2
В Части 1, мы получили уравнение линейной регрессии для следующей задачи:
Некая фирма решила использовать модель линейной регрессии для определения зависимости вида y = a + bx между годовым объемом продаж и годовыми расходами на рекламу. За предшествующие годы была собрана следующая статистика.
Мы получили уравнение линейной регрессии:
y = f(x) = 4.2 + 0.31x
Пусть y' есть среднее арифметическое результатов наблюдений, т.е.
y' = (y1 + y2 + y3 + y4 + y5)/5
1. Оценка дисперсии случайной ошибки (оценка дисперсии годового объема продаж) S2 равна:
![]()
где n = 5 число наблюдений, k = 1 число независимых переменных в модели линейной регрессии (у нас только x).
n-k-1 называют количеством степеней свободы.
Получаем S2 = 2.624
Величину S называют стандартной ошибкой регрессии, она равно квадратному корню из величины S2. В нашем примере, стандартная ошибка регрессии
S = 1.62
2. Дисперсия регрессионного коэффициента a равна Sa2:

Sa2 = 6.216
Sa - стандартная ошибка регрессионного коэффициента a равна квадратному корню из дисперсии a , то есть
Sa = 2.49
3. Дисперсия регрессионного коэффициента b равна Sb2:
![]()
Sb2 = 0.002332
Sb - стандартная ошибка регрессионного коэффициента b равна квадратному корню из дисперсии b , то есть
Sb = 0.0483
4. Коэффициент детерминации r2:

r2 = 0.9328
r - коэффициент корреляции, r = 0.9658
Коэффициент корреляции показывает силу линейной зависимости между зависимой переменной х и независимой переменной у. Значение r=1 (-1) свидетельствует о прямой (обратной) линейной зависимости между x и y. Коэффициент корреляции r = 0 свидетельствует об отсутствии линейной зависимости между переменными.
Коэффициент детерминации r2 интерпретируется как процент дисперсии зависимой переменной y, объясненный дисперсией независимой переменной x. То есть дисперсия годовых продаж равна 93.28% от дисперсии годовых расходов на рекламу.
5. Доверительный интервал для значений параметра b (совершенно аналогично для других параметров):
![]()
Если мы хотим построить 90%-ный доверительный интервал для b, нам нужно табличное t- значение статистики Стьюдента (t - критерий Стьюдента):
t(5-1-1,(1-0.90)/2) = t(3 , 0.05) =2.35
Таким образом, фирма может быть на 90% уверена, что значение параметра b будет в пределах доверительных границ:
(0.1965; 0.4235)
Доверительный интервал с уверенностью "на две трети" лежит (приблизительно) в пределах одной стандартной ошибки от среднего. Таким образом, если расходы на рекламу составят $40 000 (40 тысяч) в год, то с вероятностью 2/3 годовые продажи попадут в интервал:
( 4.2+0.31*40 – 1.62; 4.2+0.31*40 + 1.62)
или
(14.98; 18.22)
или
($14 980 000; $18 220 000).
Posted by mazoo at March 26, 2005 2:03 PM
Статьи по теме:
Comments
Очень полезная и удобно структурированная информация: нашла всё, что нужно и именно в том аспекте, который искала. Спасибо!
Posted by: Наталья at September 7, 2005 10:07 PM
Спасибо, Наталья, бальзам на душу :-)
Надеюсь, у меня скоро появится больше времени для ведения этого блога...
Posted by: Mazoo at September 8, 2005 10:20 AM
Автору огромное скиновское спасибо!!!! Готовился к контрольной - очень помогло!! Oi! Oi! Oi!
Posted by: Nick_Skinhead at November 7, 2006 3:01 PM
просто супер, для заочника это просто клад с брилиантами, большое СПАСИБО
Posted by: натали at July 2, 2007 12:58 PM
