Probability and Statistics - 古典線性迴歸模型：單變量線性回歸模型與高斯－馬爾可夫定理

一、迴歸分析簡介 ( Introduction to Regression Analysis)

1. 迴歸分析目的與定義

迴歸分析目的在於找出一條最能夠代表所有觀測資料的函數（迴歸估計式）。用此函數代表因變數和自變數之間的關係。以便觀察特定變數來預測研究者感興趣的變數。

Regression models involve the following variables:

The unknown parameters, denoted as β, which may represent a scalar or a vector.
The independent variables, X.
The dependent variable, Y.

A regression model relates Y to a function of X and β : $Y \approx f (\mathbf {X}, \boldsymbol{\beta} )$

2. 估計量(Estimator)

估計量(Estimator) : An estimator is simply a formula that is used to calculate the estimates,

for example, the parameters that describe the relationship between two or more explanatory variables.
OLS is one choice that many people would consider a good one.
trade-off between bias and variance in the choice of the estimator.

3. 母體迴歸函數(PRF) 與樣本迴歸函數(SRF)

母體迴歸函數 (Population regression function, PRF) : 母體迴歸線告訴我們在母體中，每一個X值所對應的Y值平均數。

樣本迴歸函數 (Sample regression function, SRF)) :
簡言之，由樣本推估母體假設你觀察不到整個母體，而只有隨機挑選出的樣本。

我們可以找到"最佳"的SRF估計PRF嗎? 使用計量基礎課程中最重要的普通最小平方法。

二、單變量線性回歸模型 : 最小平方法 (Ordinary least square estimation, OLSE)

單變量線性回歸，又稱簡單線性回歸 (simple linear regression, SLR)，是最簡單但用途很廣的回歸模型。其回歸式為：

$Y = \alpha + \beta X + \varepsilon $

為了從一組樣本 $(y_i, x_i)$ (其中 $i = 1,\ 2, \ldots, n$ ) 之中估計最合適（誤差最小）的$\alpha$ 和 $\beta$ ，通常採用最小平方法，其計算目標為最小化殘差平方和：

$ \sum_{i = 1}^n \varepsilon_i^2 = \sum_{i = 1}^n (y_i - \alpha - \beta x_i)^2 $

使用微分法求極值：將上式分別對 $\alpha$ 和 $\beta$做一階偏微分，並令其等於0：

$\left\{\begin{array}{lcl}
n\ \alpha + \sum\limits_{i = 1}^n x_i\ \beta = \sum\limits_{i = 1}^n y_i \\
\sum\limits_{i = 1}^n x_i\ \alpha + \sum\limits_{i = 1}^n x_i^2\ \beta = \sum\limits_{i = 1}^n x_i y_i
\end{array}\right.$

此二元一次線性方程組可用克萊姆法則求解，得解$\hat\alpha$,$\ \hat\beta$：

$\hat\beta = \frac {n \sum\limits_{i = 1}^n x_i y_i - \sum\limits_{i = 1}^n x_i \sum\limits_{i = 1}^n y_i} {n \sum\limits_{i = 1}^n x_i^2 - \left(\sum\limits_{i = 1}^n x_i\right)^2}
=\frac{\sum\limits_{i = 1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum\limits_{i = 1}^n(x_i-\bar{x})^2}
\,$
$\hat\alpha = \frac {\sum\limits_{i = 1}^n x_i^2 \sum\limits_{i = 1}^n y_i - \sum\limits_{i = 1}^n x_i \sum\limits_{i = 1}^n x_iy_i} {n \sum\limits_{i = 1}^n x_i^2 - \left(\sum\limits_{i = 1}^n x_i\right)^2}= \bar y-\bar x \hat\beta $
$S = \sum\limits_{i = 1}^n (y_i - \hat{y}_i)^2
= \sum\limits_{i = 1}^n y_i^2 - \frac {n (\sum\limits_{i = 1}^n x_i y_i)^2 + (\sum\limits_{i = 1}^n y_i)^2 \sum\limits_{i = 1}^n x_i^2 - 2 \sum\limits_{i = 1}^n x_i \sum\limits_{i = 1}^n y_i \sum\limits_{i = 1}^n x_i y_i } {n \sum\limits_{i = 1}^n x_i^2 - \left(\sum\limits_{i = 1}^n x_i\right)^2}$
$\hat \sigma^2 = \frac {S} {n-2}. $

三、古典線性迴歸模型 (Classical Linear Regression Model)

1. 古典線性迴歸模型假設

古典線性迴歸模型假設意味著殘差項不依賴自變量的值，所以 $\varepsilon_i$ 和自變量 $X$（預測變量）之間是相互獨立的。

隨機項的(條件)期望值為零 Zero mean assumption : $E(\varepsilon_i)= 0$
隨機項的變異數皆相同 Homoscedasticity assumption : $Var(\varepsilon_i) = \sigma^2 < \infty$
隨機項無自我相關 Non-autocorrelated assumption : $Cov(\varepsilon_i,\varepsilon_j) = 0$ for $i \neq j$
$x_t$ 不是隨機 The $x_t$ are non-stochastic : $Cov(\varepsilon_t, x_t) = 0$
隨機項為常態分佈 The normality assumption : $\varepsilon_i\ \sim\ \mathcal{N}(0,\,\sigma^2)$

在這些假設下，建立一個顯示線性回歸作為條件預期模型的簡單線性回歸，可以表示為：

$\mbox{E}(Y_i \mid X_i = x_i) = \alpha + \beta x_i \,$

2. 最佳線性無偏估計量 (Best Linear Unbiased Estimators，BLUE)

最佳線性無偏估計量 (best linear unbiased estimators，BLUE) 指一個估計量具有以下性質：

線性估計量 (Linear Estimator)：即這個估計量是隨機變量。
不偏估計量 (Unbiased Estimator)：即這個估計量的均值或者期望值 $E(a)$ 等於真實值 $a$。
有效估計量 (Efficient Estimators)：在二個不偏估計量中，具有較小變異數(即有較高的精確度與可靠度)者，稱為較有效的估計量。

[用心去感覺] 不偏性比一致性更嚴格

不偏性比一致性更嚴格，所以一般在BLUE只寫不偏性。一致估計量(Consistent Estimators)：若一不偏估計量隨著樣本數的增加而愈接近母體參數，則稱此不偏估計量具有一致性。

3. 高斯－馬爾可夫定理 (Gauss–Markov theorem)

在誤差零均值，同標準差，且彼此獨立的線性回歸模型中，回歸係數的最佳線性無偏估計(BLUE) 就是最小標準差估計。一般而言，任何回歸係數的線性組合之最佳線性無偏估計量就是它的最小標準差估計。

在這個線性回歸模型中，其誤差不需要假定為常態分布或獨立同分布（iid），而僅需要滿足不相關和同標準差這兩個稍弱的條件）。

具體而言，假設 $Y_i=\beta_0+\beta_1 x_i+\varepsilon_i; \quad i = 1, \dots n.$

其中 $β_0$ 和 $β_1$ 是非隨機且未觀測到的參數，$x_i$ 是觀測到的變量，$ε_i$ 是隨機誤差，$Y_i$ 是隨機變量。

高斯－馬爾可夫定理的條件是：

隨機項的(條件)期望值為零 Zero mean assumption : $E(\varepsilon_i)= 0$
隨機項的變異數皆相同 Homoscedasticity assumption : $Var(\varepsilon_i) = \sigma^2 < \infty$
隨機項無自我相關 Non-autocorrelated assumption : $Cov(\varepsilon_i,\varepsilon_j) = 0$ for $i \neq j$
$x_t$ 不是隨機 The $x_t$ are non-stochastic : $Cov(\varepsilon_t, x_t) = 0$

[注意] 沒有常態分佈這個條件

The normality assumption : $\varepsilon_i\ \sim\ \mathcal{N}(0,\,\sigma^2)$

References

wiki - Gauss–Markov theorem
https://en.wikipedia.org/wiki/Gauss%E2%80%93Markov_theorem

wiki - 最小平方法
https://zh.wikipedia.org/wiki/%E6%9C%80%E5%B0%8F%E4%BA%8C%E4%B9%98%E6%B3%95

Pages

2015年11月7日星期六