1 Метод наименьших квадратов (теория)

1.1 Задача

Пусть задано \(n\) наблюдений (точек на плоскости) \(\{x_i,y_i\}_{i=1}^n\). Для линейной функции \(y=\beta_0+\beta_1x\)

  • применив метод наименьших квадратов выведите систему нормальных уравнений для нахождения параметров (оптимальной) прямой, наименее уклоняющейся от заданных наблюдений (точек на плоскости);

  • выведете формулы для оценок \(\widehat{\beta_0}\) и \(\widehat{\beta_1}\) коэффициентов оптимальной прямой;

  • покажите, что для оценок коэффициентов верно: \[ \widehat{\beta_1}=\frac{s.cov(x,y)}{s.Var(x)} \quad \widehat{\beta_0}=\bar{y}- \widehat{\beta_1}\cdot \bar{x} \]

(Здесь \(s.cov(x,y)\) - выборочная ковариация, \(s.Var()\) - выборочная дисперсия)

1.2 Задача

Пусть задано \(n\) наблюдений (точек на плоскости) \(\{x_i,y_i\}_{i=1}^n\). Для линейной функции \(y=\beta x\)

  • рименив метод наименьших квадратов выведите систему нормальных уравнений для нахождения параметров (оптимальной) прямой, наименее уклоняющейся от заданных наблюдений (точек на плоскости);

  • выведете формулы для оценки \(\widehat{\beta}\) коэффициента оптимальной прямой.

1.3 Задача

Пусть \(\hat{\beta}\) есть OLS-оценка коэффициента наклона линейной функции \(y\) на \(x\) без константы, а \(\hat{\gamma}\) – OLS-оценка коэффициента наклона в линейной функции \(x\) на \(y\) без константы. Верно ли для этих оценок равенство

\[ \hat{\gamma}=\frac{1}{\hat{\beta}}? \]

1.4 Задача

Пусть \(\widehat{\beta}_1\) есть OLS-оценка коэффициента наклона линейной функции \(y\) на \(x\) с константой, а \(\widehat{\gamma}_1\) - OLS-оценка коэффициента наклона линейной функции \(x\) на \(y\) с константой. Верно ли равенство \[ \widehat{\gamma}_1=\frac{1}{\widehat{\beta}_1}? \] Ответ поясните.

2 Метод наименьших квадратов (практика)

Важно: во всех задачах логарифм натуральный!

Задания основаны на датасетах sleep75, Labour

2.1 Задача (sleep equation)

Рассморим набор данных (описание датасета sleep75 см. в задачнике)


===================
   sleep totwrk age
-------------------
1  3113   3438  32 
2  2920   5020  31 
3  2670   2815  44 
4  3083   3786  30 
5  3448   2580  64 
6  4063   1205  41 
7  3180   2113  35 
8  2928   3608  47 
9  3368   2353  32 
10 3018   2851  30 
11 1575   6415  43 
12 3295   370   23 
13 3798   2438  24 
14 3008   2693  48 
15 3248   2526  33 
-------------------
  1. Нарисуйте графики наблюдений sleep vs totwrk и sleep vs age

  2. Найдите параметры оптимальной прямой sleep на totwrk (с константой). Ответ округлите до 2-х десятичных знаков

Ответ

(Intercept)      totwrk 
    3990.36       -0.30 
  1. Найдите параметры оптимальной прямой sleep на totwrk (без константы). Ответ округлите до 2-х десятичных знаков

Ответ

totwrk 
  0.81 
  1. Найдите параметры оптимальной прямой sleep на age (с константой). Ответ округлите до 2-х десятичных знаков

Ответ

(Intercept)         age 
    3432.10       -8.56 
  1. Найдите параметры оптимальной прямой sleep на age (без константы). Ответ округлите до 2-х десятичных знаков

Ответ

  age 
77.16 

2.2 Задача (output equation)

Рассморим набор данных (описание датасета Labour см. в задачнике)


================================
   capital labour output   wage 
--------------------------------
1   2.607   184    9.251  43.080
2   1.323    91    3.664  27.780
3  22.094   426   28.782  44.468
4  10.738    72    4.125  39.735
5   1.161    46    2.890  34.651
6  276.797  7642  480.140 48.940
7   1.679    48    2.149  32.458
8   1.157   108    4.140  31.117
9   0.880    35    2.461  35.115
10  3.487    72    3.851  32.525
11  0.527    71    3.246  42.703
12  0.670    29    1.718  38.816
13  2.955    77    4.403  26.273
14  0.443    57    2.924  39.910
15  1.143    46    3.836  38.903
--------------------------------
  1. Нарисуйте графики наблюдений log(output) vs log(capital), log(output) vs log(labour) и log(output) vs log(wage)

  2. Найдите параметры оптимальной прямой log(output) vs log(capital) (с константой). Ответ округлите до 2-х десятичных знаков

Ответ

 (Intercept) log(capital) 
        1.02         0.75 
  1. Найдите параметры оптимальной прямой log(output) vs log(capital) (без константы). Ответ округлите до 2-х десятичных знаков

Ответ

log(capital) 
        1.02 
  1. Найдите параметры оптимальной прямой log(output) vs log(labour) (с константой). Ответ округлите до 2-х десятичных знаков

Ответ

(Intercept) log(labour) 
      -2.95        1.01 
  1. Найдите параметры оптимальной прямой log(output) vs log(labour) (без константы). Ответ округлите до 2-х десятичных знаков

Ответ

log(labour) 
       0.42 
  1. Найдите параметры оптимальной прямой log(output) vs log(wage) (с константой). Ответ округлите до 2-х десятичных знаков

Ответ

(Intercept)   log(wage) 
     -13.94        4.35 
  1. Найдите параметры оптимальной прямой log(output) vs log(wage) (без константы). Ответ округлите до 2-х десятичных знаков

Ответ

log(wage) 
     0.48 

2.3 Задача (quadratic sleep equation)

Рассморим набор данных (описание датасета sleep75 см. в задачнике)


===================
   sleep totwrk age
-------------------
1  3113   3438  32 
2  2920   5020  31 
3  2670   2815  44 
4  3083   3786  30 
5  3448   2580  64 
6  4063   1205  41 
7  3180   2113  35 
8  2928   3608  47 
9  3368   2353  32 
10 3018   2851  30 
11 1575   6415  43 
12 3295   370   23 
13 3798   2438  24 
14 3008   2693  48 
15 3248   2526  33 
-------------------
  1. Нарисуйте графики наблюдений sleep vs totwrk и sleep vs age

  2. Найдите параметры оптимальной параболы sleep на totwrk & totwrk2. Ответ округлите до 2-х десятичных знаков

Ответ

(Intercept)      totwrk I(totwrk^2) 
    3515.41        0.04        0.00 
  1. Найдите параметры оптимальной параболы sleep на age & age2. Ответ округлите до 2-х десятичных знаков

Ответ

(Intercept)         age    I(age^2) 
    5830.09     -131.91        1.47 

2.4 Задача (multivariate sleep equation)

Рассморим набор данных (описание датасета sleep75 см. в задачнике)


===================
   sleep totwrk age
-------------------
1  3113   3438  32 
2  2920   5020  31 
3  2670   2815  44 
4  3083   3786  30 
5  3448   2580  64 
6  4063   1205  41 
7  3180   2113  35 
8  2928   3608  47 
9  3368   2353  32 
10 3018   2851  30 
11 1575   6415  43 
12 3295   370   23 
13 3798   2438  24 
14 3008   2693  48 
15 3248   2526  33 
16 3683   2950  23 
17 3201   3003  46 
18 2580   4011  37 
19 3420   2300  53 
20 3090   1543  45 
-------------------

Найдите параметры оптимальной плоскости sleep на totwrk & age. Ответ округлите до 2-х десятичных знаков

Ответ

(Intercept)      totwrk         age 
    4173.43       -0.28       -5.62 

2.5 Задача (multivariate output equation)

Рассморим набор данных (описание датасета Labour см. в задачнике)


================================
   capital labour output   wage 
--------------------------------
1   2.607   184    9.251  43.080
2   1.323    91    3.664  27.780
3  22.094   426   28.782  44.468
4  10.738    72    4.125  39.735
5   1.161    46    2.890  34.651
6  276.797  7642  480.140 48.940
7   1.679    48    2.149  32.458
8   1.157   108    4.140  31.117
9   0.880    35    2.461  35.115
10  3.487    72    3.851  32.525
11  0.527    71    3.246  42.703
12  0.670    29    1.718  38.816
13  2.955    77    4.403  26.273
14  0.443    57    2.924  39.910
15  1.143    46    3.836  38.903
16  3.624   188    6.527  26.349
17  0.090    4     0.273  24.851
18  7.325   222    3.473  43.050
19  3.614   180    3.704  19.717
20  0.389    61    2.113  27.260
--------------------------------

Найдите параметры оптимальной плоскости log(output) на log(capital) & log(labour) (с константой). Ответ округлите до 2-х десятичных знаков

Ответ

 (Intercept) log(capital)  log(labour) 
       -2.16         0.15         0.78 

2.6 Задача (свойства OLS. Sleep equation)

Рассморим набор данных (описание датасета sleep75 см. в задачнике)


===================
   sleep totwrk age
-------------------
1  3113   3438  32 
2  2920   5020  31 
3  2670   2815  44 
4  3083   3786  30 
5  3448   2580  64 
6  4063   1205  41 
7  3180   2113  35 
8  2928   3608  47 
9  3368   2353  32 
10 3018   2851  30 
11 1575   6415  43 
12 3295   370   23 
13 3798   2438  24 
14 3008   2693  48 
15 3248   2526  33 
-------------------

Найдите параметры оптимальной прямой sleep на totwrk и totwrk на sleep(с константой). Сравните коэффициенты наклона

Ответ

 (Intercept)       totwrk 
3990.3551021   -0.2972185 
(Intercept)       sleep 
9270.376534   -2.030283 

2.7 Задача (свойства OLS. Cost equation)

Рассморим набор данных (описание датасета Electricity см. в задачнике)


=====================================
    cost   q      pl      pk     pf  
-------------------------------------
1  0.213   8   6869.470 64.945   18  
2  3.043  869  8372.960 68.227 21.067
3  9.406  1412 7960.900 40.692 41.530
4  0.761   65  8971.890 41.243 28.539
5  2.259  295  8218.400 71.940 39.200
6  1.342  183  5063.490 74.430 35.510
7  0.616   50  9204.240 90.470 32.070
8  0.489   14  5438.890 86.110 34.150
9  1.147   90  7189.670 79.101 21.503
10 7.549  2969 8183.340 80.657   9   
11 2.053  374  7884.940 82.485 26.301
12 0.636   67  6696.500 58.258 25.400
13 3.150  378  7895.430 60.277 42.468
14 10.314 1886 6833.930 67.680 25.600
15 5.849  1025 7093.320 68.227 22.279
-------------------------------------

Найдите параметры оптимальной прямой cost на q и q на cost(без константой). Сравните коэффициенты наклона

Ответ

          q 
0.004030933 
    cost 
209.4879 

2.8 Задача (свойства OLS. Sleep equation. Scaling)

Рассморим набор данных (описание датасета sleep75 см. в задачнике)


===================
   sleep totwrk age
-------------------
1  3113   3438  32 
2  2920   5020  31 
3  2670   2815  44 
4  3083   3786  30 
5  3448   2580  64 
6  4063   1205  41 
7  3180   2113  35 
8  2928   3608  47 
9  3368   2353  32 
10 3018   2851  30 
11 1575   6415  43 
12 3295   370   23 
13 3798   2438  24 
14 3008   2693  48 
15 3248   2526  33 
16 3683   2950  23 
17 3201   3003  46 
18 2580   4011  37 
19 3420   2300  53 
20 3090   1543  45 
-------------------
  1. Найдите параметры оптимальной прямой sleep на totwrk и прямой sleep/60 на totwrk/60 (с константой) Сравните параметры первой и второй прямой

Ответ

 (Intercept)       totwrk 
3967.4366219   -0.2871477 
 (Intercept) I(totwrk/60) 
  66.1239437   -0.2871477 

Как можно объяснить выбор второй прямой?

  1. Найдите параметры оптимальной прямой sleep на age и прямой sleep/60 на age (с константой) Сравните параметры первой и второй прямой

Ответ

(Intercept)         age 
3425.135219   -7.639559 
(Intercept)         age 
  57.085587   -0.127326 

Как можно объяснить выбор второй прямой?

2.9 Задача (свойства OLS. Sleep equation. Translation)

Рассморим набор данных (описание датасета sleep75 см. в задачнике)


===================
   sleep totwrk age
-------------------
1  3113   3438  32 
2  2920   5020  31 
3  2670   2815  44 
4  3083   3786  30 
5  3448   2580  64 
6  4063   1205  41 
7  3180   2113  35 
8  2928   3608  47 
9  3368   2353  32 
10 3018   2851  30 
11 1575   6415  43 
12 3295   370   23 
13 3798   2438  24 
14 3008   2693  48 
15 3248   2526  33 
16 3683   2950  23 
17 3201   3003  46 
18 2580   4011  37 
19 3420   2300  53 
20 3090   1543  45 
-------------------

Найдите параметры оптимальной прямой sleep на totwrk и прямой sleep-3000 на totwrk-2400 (с константой) Сравните параметры первой и второй прямой

Ответ

 (Intercept)       totwrk 
3967.4366219   -0.2871477 
     (Intercept) I(totwrk - 2400) 
     278.2822586       -0.2871477 

2.10 Задача (свойства OLS. Output equation. Translation)

Рассморим набор данных (описание датасета Labour см. в задачнике)


================================
   capital labour output   wage 
--------------------------------
1   2.607   184    9.251  43.080
2   1.323    91    3.664  27.780
3  22.094   426   28.782  44.468
4  10.738    72    4.125  39.735
5   1.161    46    2.890  34.651
6  276.797  7642  480.140 48.940
7   1.679    48    2.149  32.458
8   1.157   108    4.140  31.117
9   0.880    35    2.461  35.115
10  3.487    72    3.851  32.525
11  0.527    71    3.246  42.703
12  0.670    29    1.718  38.816
13  2.955    77    4.403  26.273
14  0.443    57    2.924  39.910
15  1.143    46    3.836  38.903
16  3.624   188    6.527  26.349
17  0.090    4     0.273  24.851
18  7.325   222    3.473  43.050
19  3.614   180    3.704  19.717
20  0.389    61    2.113  27.260
--------------------------------

Найдите параметры оптимальной прямой log(output) на log(capital) и прямой log(output)-\(\overline{\log(output)}\) на log(capital)-\(\overline{\log(capital)}\) (с константой) Сравните параметры первой и второй прямой

Ответ

 (Intercept) log(capital) 
   0.9297468    0.7328578 
        (Intercept) I(log(capital) - m) 
      -6.746284e-17        7.328578e-01 

3 Графики

Здесь приведеным графики к предыдущим заданиям (прямые с константой и без)

3.1 Задача (sleep equation)

3.2 Задача (output equation)

3.3 Задача (quadratic sleep equation)

3.4 Гистограммы (output equation)

3.5 Гистограммы (cost equation)