深入理解線性模型(二)---基于似然函數的估計

更新時間:2019.10.31

1. 引言

??在上一篇中,我們從損失函數的角度出發討論了\(\beta\)\(\sigma\)的估計。在本篇將換一種極具統計味道的角度,從似然函數出發來討論了\(\beta\)\(\sigma\)的估計。從中我們也將看見,在不同的假設中,損失函數將會發生不同的變化。

2. 關于\(\varepsilon\)假設

??在上一篇(基于損失函數的估計)中,我們提到,對于線性模型,我們常常使用Guass-Markov假設,即:

  1. \(E(\varepsilon) = 0\)
  2. \(cov(\varepsilon) = \sigma^2 I_n\)

??但是,實際上我們同方差的假設是總是不滿足的,完整來說,對\(\varepsilon\)的假設應該有三種:

  1. 同方差,且各個隨機誤差變量不相關:\(cov(\varepsilon) = \sigma^2 I_n\)
  2. 異常差,但各個隨機誤差變量不相關,\(cov(\varepsilon) = diag(\sigma_1^2, \sigma_2^2, \cdots, \sigma_n^2)\)
  3. 異方差,且各個隨機誤差變量是相關的,
    \[ cov(\varepsilon) = \begin{pmatrix} \sigma_{11}^2 & cov(\varepsilon_1, \varepsilon_2) & \cdots & cov(\varepsilon_1, \varepsilon_n)\\ cov(\varepsilon_2, \varepsilon_1) & \sigma_{22}^2 & \cdots & cov(\varepsilon_2, \varepsilon_n)\\ \vdots & \vdots & & \vdots\\ cov(\varepsilon_n, \varepsilon_1) & cov(\varepsilon_n, \varepsilon_2) & \cdots & \sigma_{nn}^2 \end{pmatrix} \]

??此時,記\(cov(\varepsilon) = \Sigma\)

3. 基于似然函數的估計

??之前是從損失函數的角度進行參數的估計,但是實際上每個損失函數都應該對應著一個分布,并使得分布的似然函數達到最大
??我們知道在X給定的情況下,似然函數\(L(\theta;Y,X) = P_{\theta}(Y_1 = y_1, Y_2 = y_2, \cdots, Y_n = y_n)\)。假設\(Y_1, Y_2, \cdots, Y_n\)是獨立的,有\(L(\theta;Y,X) = \prod_{i=1}^nP(Y = y_i)\)。當是離散情況的時候,可以進一步化為:\(L(\theta;Y,X) = \prod_{i=1}^nP_i(\theta)\)。當是連續情況的時候,則可以化為:\(L(\theta;Y,X) = \prod_{i=1}^n f(y_i;\theta)\)

3.1 基于假設1

??如果滿足假設1,\(cov(\varepsilon) = \sigma^2 I_n\), 并加上一個正態性的假設,即有\(\varepsilon_i \sim N(0, \sigma^2)\),那么,\(y_i = x_i\beta + \varepsilon_i \sim N(x_i\beta, \sigma^2)\),那么有似然函數:
\begin{equation}
\begin{split}
L(\beta, \sigma^2, Y, X) & = \prod_{i=1}^n f(y_i)\\
& = \prod_{i=1}^n \frac{1}{\sqrt{2\pi}\sigma} e^{- \frac{(y_i - x_i\beta)^2}{2\sigma^2}}\\
& = (\frac{1}{\sqrt{2\pi}\sigma})^n e^{- \frac{1}{2 \sigma^2} \displaystyle \sum_{i=1}^n(y_i - x_i\beta)^2}
\end{split}
\end{equation}

??可以看到,似然函數中含有的\(\sum_{i=1}^n(y_i - x_i\beta)^2\)部分正是我們之前討論的二次損失形式。那么我們便了解到,基于假設1時,確實是應該采用我們之前所使用的二次損失形式
??通常為了簡便計算,我們都會將似然函數對數化

\begin{equation}
\begin{split}
lnL(\beta, \sigma^2, Y, X) & = -nln(\sqrt{2\pi}\sigma)- \frac{1}{2 \sigma^2} \sum_{i=1}^n(y_i - x_i\beta)^2
\end{split}
\end{equation}

??記\(G(\beta, \sigma^2) = nln(\sqrt{2\pi}\sigma) + \frac{1}{2 \sigma^2} \sum_{i=1}^n(y_i - x_i\beta)^2\),令似然函數最大化,即是求\(min \hspace{1mm}G(\beta, \sigma^2)\)

??對\(G(\beta, \sigma^2)\)求關于\(\beta\)的偏導有

\begin{equation}
\begin{split}
\frac {\partial G(\beta, \sigma^2)}{\partial \beta}
&= 0 + \frac{1}{2 \sigma^2}2 \displaystyle \sum_{i=1}^n (y_i - x_i\beta)x_i\\
& = \frac{1}{2 \sigma^2} \displaystyle \sum_{i=1}^n 2(x_iy_i - x_i^2\beta) = 0
\end{split}
\\
=> \displaystyle \sum_{i=1}^n (x_iy_i - x_i^2\beta) = 0 => \displaystyle \sum_{i=1}^n x_iy_i = \displaystyle \sum_{i=1}^n x_i^2\beta\\
=> X^TY = X^TX\beta => \hat \beta = (X^TX)^{-1}X^TY
\end{equation}

??對對\(G(\beta, \sigma^2)\)求關于\(\sigma\)的偏導有

\begin{equation}
\begin{split}
\frac {\partial G(\beta, \sigma^2)}{\partial \sigma}
&= n\frac{1}{\sqrt{2\pi}\sigma}\sqrt{2\pi} - \frac{2}{2\sigma^3}\sum_{i=1}^n(y_i - x_i\beta)^2 \\
& = \frac{n}{\sigma} + \frac{1}{\sigma^3}\sum_{i=1}^n(y_i - x_i\beta)^2 = 0
\end{split}
\\
=> \frac{1}{\sigma^3}\sum_{i=1}^n(y_i - x_i\beta)^2 = \frac{n}{\sigma}
=> \hat \sigma^2 = \frac{\displaystyle \sum_{i=1}^n(y_i - x_i\beta)^2}{n}
\end{equation}

??從這里便可以看出,通過似然函數,一次就搞定了參數\(\beta\)\(\sigma\)的估計,而基于損失函數的估計只是估計出了\(\beta\),而\(\sigma\)是另外造一套理論估計的

  • tips:但是基于似然函數的\(\sigma\)估計有一個小問題,它所得到的不是一個無偏估計(和\(\hat \sigma^2 = \frac{SSE}{n-p}\)略顯不同)。因此,有的人也采用限制似然估計(REML)來進行代替。

3.2 基于假設2

??如果滿足假設2,\(cov(\varepsilon) = cov(\varepsilon) = diag(\sigma_1^2, \sigma_2^2, \cdots, \sigma_n^2)\), 并加上一個正態性的假設,即有\(\varepsilon_i \sim N(0, \sigma^2_{ii})\),那么,\(y_i = x_i\beta + \varepsilon_i \sim N(x_i\beta, \sigma^2_{ii})\),那么有似然函數:

\begin{equation}
\begin{split}
L(\beta, \sigma^2, Y, X) & = \prod_{i=1}^n f(y_i)\\
& = \prod_{i=1}^n \frac{1}{\sqrt{2\pi}\sigma_{ii}} e^{- \frac{(y_i - x_i\beta)^2}{2\sigma^2_{ii}}}\\
& = (\frac{1}{\sqrt{2\pi}})^n \prod_{i=1}^n(\frac{1}{\sigma_{ii}}) e^{- \frac{1}{2} \displaystyle \sum_{i=1}^n(\frac {y_i - x_i\beta}{\sigma_{ii}})^2}
\end{split}
\end{equation}

??我們可以發現基于假設2下,似然函數的核心部分發生了變化,不再是\(\sum_{i=1}^n(y_i - x_i\beta)^2\)。因此,根據之前的經驗,基于假設2,所采用的損失函數也應該發生變化。此時采用的損失函數應該是標準化的二次損失\(\displaystyle \sum_{i=1}^n(\frac {y_i - x_i\beta}{\sigma_{ii}})^2\),我們也把這稱為加權最小二乘估計。
??將似然函數對數化:
\begin{equation}
\begin{split}
lnL(\beta, \sigma^2, Y, X) = -nln(\sqrt{2\pi})- \sum_{i=1}^nln\sigma_{ii} - \frac{1}{2} \displaystyle \sum_{i=1}^n(\frac {y_i - x_i\beta}{\sigma_{ii}})^2
\end{split}
\end{equation}

??記\(G(\beta, \sigma_{ii}^2) = nln(\sqrt{2\pi}) + \sum_{i=1}^nln\sigma_{ii} + \frac{1}{2} \displaystyle \sum_{i=1}^n(\frac {y_i - x_i\beta}{\sigma_{ii}})^2\),令似然函數最大化,即是求\(min \hspace{1mm}G(\beta, \sigma_{ii}^2)\)
??對\(G(\beta, \sigma_{ii}^2)\)求關于\(\beta\)的偏導有

\begin{equation}
\begin{split}
\frac {\partial G(\beta, \sigma_{ii}^2)}{\partial \sigma_{ii}}
&= 0 + 0 - \frac{1}{2}2 \displaystyle \sum_{i=1}^n (\frac {y_i - x_i\beta}{\sigma_{ii}})\frac{x_i}{\sigma_{ii}}\\
& = - \displaystyle \sum_{i=1}^n (\frac {x_iy_i - x_i^2\beta}{\sigma_{ii}^2}) = 0
\end{split}
\\
=> \displaystyle \sum_{i=1}^n (\frac {x_iy_i}{\sigma_{ii}^2}) = \displaystyle \sum_{i=1}^n (\frac {x_i^2\beta}{\sigma_{ii}^2}) \\
=> X_c^TY_c = X_c^TX_c\beta => \hat \beta = (X_c^TX_c)^{-1}X_c^TY_c
\end{equation}

??記\(X_c = (\frac{x_1}{\sigma_{11}}, \frac{x_2}{\sigma_{22}}, \cdots, \frac{x_n}{\sigma_{nn}})^T, Y_c = (\frac{y_1}{\sigma_{11}}, \frac{y_2}{\sigma_{22}}, \cdots, \frac{y_n}{\sigma_{nn}})^T\)
??對\(G(\beta, \sigma_{ii}^2)\)求關于\(\sigma_{ii}\)的偏導有,以\(\sigma_{11}\)為例

\begin{equation}
\begin{split}
\frac {\partial G(\beta, \sigma_{ii}^2)}{\partial \sigma_{11}}
&= 0 + \frac{1}{\sigma_{11}} - \frac{1}{2}2\frac{(y_1 - x_1\beta)^2}{\sigma_{11}^3} \\
& = \frac{1}{\sigma_{11}} - \frac{(y_1 - x_1\beta)^2}{\sigma_{11}^3} = 0
\end{split}
\\
=> \frac{1}{\sigma_{11}} = \frac{(y_1 - x_1\beta)^2}{\sigma_{11}^3}
=> \hat \sigma_{11}^2 = (y_1 - x_1\beta)^2
\end{equation}

??類似地,也就有\(\hat \sigma_{ii}^2 = (y_i - x_i\beta)^2\)

3.3. 基于假設3

??如果滿足假設3,\(cov(\varepsilon) = \Sigma\), 并加上一個正態性的假設,即有\(\varepsilon\)滿足多維正態分布,\(\varepsilon \sim N_n(0, \sigma^2_{ii})\),那么,\(Y = X\beta + \varepsilon \sim N_n(X\beta, \Sigma)\),那么有似然函數

\begin{equation}
\begin{split}
L(\beta, \Sigma Y, X) & =P(Y_1 = y_1, Y_2 = y_2, \cdots, Y_n = y_n) = P(Y=y)\
& = \frac{1}{(\sqrt{2\pi})^n|\Sigma|^{\frac{1}{2}}}e ^{- \frac{1}{2}(Y - X\beta)^T \sum^{-1} (Y - X\beta)}
\end{split}
\end{equation}

??其中,\(|\Sigma|\)\(\Sigma\)的行列式
??我們可以發現基于假設3下,似然函數的核同樣也發生了變化。那么,基于這種假設,此時采用的損失函數應該是\((y - x\beta)^T \Sigma^{-1} (y - x\beta)\)。將似然函數對數化:
\[ lnL(\beta, \Sigma, Y, X) = -nln(\sqrt{2\pi})- \frac{1}{2}ln|\Sigma| - \frac{1}{2} (Y - X\beta)^T (\Sigma)^{-1} (Y - X\beta) \]
??記\(G(\beta, \Sigma) = nln(\sqrt{2\pi}) + \frac{1}{2}ln|\Sigma| + \frac{1}{2} (Y - X\beta)^T \Sigma^{-1} (Y - X\beta)\),令似然函數最大化,即是求\(min \hspace{1mm}G(\beta, \Sigma)\)
??對\(G(\beta, \Sigma)\)求關于\(\beta\)的偏導有

\begin{equation}
\begin{split}
\frac {\partial G(\beta, \Sigma)}{\partial \beta}
&= 0 + 0 - \frac{1}{2}2 X^T \Sigma^{-1} (Y - X\beta)\\
& = X^T \Sigma^{-1}(X\beta - Y) = 0
\end{split}
\\
=> X^T \Sigma^{-1}X\beta = X^T \Sigma^{-1}Y \\
=> \hat \beta = (X^T \Sigma^{-1} X)^{-1}X^T \Sigma^{-1} Y
\end{equation}

??對\(G(\beta, \Sigma)\)求關于\(\Sigma\)的偏導有

\begin{equation}
\begin{split}
\mathrm{d}G & = \frac{1}{2}|\Sigma|^{-1}d|\Sigma| - \frac{1}{2}(Y - X\beta)^T\Sigma^{-1}d\Sigma\Sigma^{-1}(Y-X\beta)\\
& = \frac{1}{2}tr(\Sigma^{-1}d\Sigma) - tr(\frac{1}{2}(Y - X\beta)^T\Sigma^{-1}d\Sigma\Sigma^{-1}(Y-X\beta))\\
& = \frac{1}{2}tr(\Sigma^{-1}d\Sigma) - tr(\frac{1}{2}\Sigma^{-1}(Y-X\beta)(Y - X\beta)^T\Sigma^{-1}d\Sigma)\\
& = tr(\frac{1}{2}((\Sigma^{-1} - \Sigma^{-1}(Y-X\beta)(Y - X\beta)^T\Sigma^{-1}))d\Sigma)
\end{split}
\\
=> \frac{\partial G}{\partial \Sigma} = \frac{1}{2}(\Sigma^{-1} - \Sigma^{-1}(Y-X\beta)(Y - X\beta)^T\Sigma^{-1})^T = 0\\
=> \Sigma^{-1}(Y-X\beta)(Y - X\beta)^T\Sigma^{-1} = \Sigma^{-1} \\
=> \hat \Sigma = (Y-X\beta)(Y - X\beta)^T
\end{equation}

4. 估計的優良性

??在基于損失函數的估計中,我們討論了估計的優良性,那么當換了假設和損失函數后,我們的估計是否還是具有優良的性質呢
??對于假設3中,有
\begin{equation}
\begin{split}
L_3(\beta) & = (Y - X\beta)^T \Sigma^{-1} (Y - X\beta) \\
& = (Y - X\beta)^T \Sigma^{-\frac{1}{2}}\Sigma^{-\frac{1}{2}} (Y - X\beta)\\
& = (\Sigma^{-\frac{1}{2}}Y - \Sigma^{-\frac{1}{2}}X\beta)^T(\Sigma^{-\frac{1}{2}}Y - \Sigma^{-\frac{1}{2}}X\beta)\\
& = (Y^* - X^* \beta)^T(Y^* - X^* \beta)
\end{split}
\end{equation}

??其中,記\(\Sigma^{-\frac{1}{2}}Y - \Sigma^{-\frac{1}{2}}X\beta\)\(Y^* - X^* \beta\),由于\(L_1(\beta) = (Y-X\beta)^T(Y - X\beta)\)具有優良的性質,那么\(L_3(\beta) = (Y^* - X^* \beta)^T(Y^* - X^* \beta)\)的估計也應該具有優良的性質。

5. 假設的場景

??為什么總假設線性模型符合假設1呢?實際上當我們基于假設2時,要估計的參數有n+p個(n個不同的\(\sigma_{ii}\),和p個\(\beta_i\)),而我們只有n個樣本,這樣就出現自由度不足的情況;而當我們基于假設3時,要估計的參數就更多了(有\(\frac{n^2 + n}{2}+p\)個)。這樣基本很難做估計,即使是做出出來了,估計也不一定唯一。

??面對這種情況,通常我們都要加大樣本量,像可以一個個體測m次,得到mn個數據,當然這時模型也變成了混合模型。因此,對于假設2和假設3,更加適合一些縱向數據(經濟上的面板數據、心理學上的重復測量數據、社會學上的多水平數據)

posted @ 2019-10-31 16:22  jianli-Alex  閱讀(...)  評論(... 編輯 收藏
11选5走势图