# 6. 最小平方法與迴歸直線
>[name=李奕璟]
>
>[time=Nov 28, 2022]
###### tags: `測量` `線性迴歸` `最小平方法` `相關係數`
---
>數學老師告訴我們,當兩變量$x$與$y$之間存在著強烈的**線性相關**時,可利用最小平方法找出$y$對$x$的迴歸直線。然而,由於推導過程較為複雜,高中課本僅著重於操作流程,並未對背後的原理多所著墨。本篇文章將先簡要說明相關係數並引入迴歸直線方程式,接著藉由一維數據處理最小平方法之統計意義,最後進一步善用標準化概念,以最小平方法推導迴歸直線方程式。
## 高中老師可能教過你的事
### 相關係數
在物理實驗中倘若得到兩組數據$x$與$y$,可以座標形式$(x_i,y_i)$分別紀錄所得的第$i$組數據。為了要屏除個別變量的單位所造成的影響,通常會先將兩組變量的數據皆**標準化**成平均值為$0$且標準差為$1$的數據$(x_i^\prime,y_i^\prime)$,亦即:
$$
x_i^\prime=\frac{x_i-\mu_x}{\sigma_x}\\
y_i^\prime=\frac{y_i-\mu_y}{\sigma_y}
$$
其中$\mu_x$與$\mu_y$分別為變量$x$與變量$y$之算數平均數,而$\sigma_x$與$\sigma_y$則為變量$x$與變量$y$之標準差。如此一來,則可藉由計算經標準化後的各個數據點之平均乘積和$r$:
$$
r=\frac{\sum^{i=n}_{i=1}x^\prime_iy^\prime_i}{n}=\frac{\sum^{i=n}_{i=1}(x_i-\mu_x)(y_i-\mu_y)}{n\sigma_x\sigma_y}
$$
而得到兩者之間之相關性,我們稱上式中的$r$為變量$x$與$y$之間的**相關係數**。

>圖(a)中的數據點經標準化後可變為如圖(b)之分布圖,而相關係數$r$則等同於計算如圖(c)中各個數據與兩軸之間所圍成的矩形面積和,其中一三象限的面積為正,二四象限則為負。
>圖片來源:數學2,單元9。龍騰書局。
經由代數證明可知,相關係數必定介於$+1$與$-1$之間,通常稱相關係數$+1$的數據彼此之間為**完全正相關**,而當$r=-1$時則稱兩者之間為**完全負相關**。
:::danger
當兩數據彼此之間的相關係數$r=0$時僅代表兩者之間並沒有任何線性相關,但並不代表兩者之間不存在著任何關聯性。
:::

>圖片來源:數學2,單元9。龍騰書局。
### 迴歸直線方程式
當兩數據變量$x$與$y$之間為高度直線相關時,可利用**最小平方法**找到一條與各數據點之間的鉛直距離平方和最小的最佳直線方程式,藉此快速掌握數據的趨勢,又可以稱此直線為**迴歸直線**,其表示式為:
$$
y-\mu_y=r\times\frac{\sigma_y}{\sigma_x}(x-\mu_x)
$$
上式中的$r$即為前述所提及之相關係數。當數據量不大時,只要遵循前述定義,便可直接求得迴歸直線方程式;而當數據量增多時,則可運用電腦或是上述公式輔助計算。
<iframe width="100%" height="400" src="https://www.youtube.com/embed/Ia83YShZi7I" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" allowfullscreen></iframe>
## 一些你可能還不知道的事
### 如何以最小平方法有效處理一維數據
為了更瞭解最小平方法的統計含義,我們先試著將其運用至一維數據處理。以量測某物質量實驗為例,當在相同情況下測量某物體之質量共$n$次,可得測量值$m_1$、$m_2$...$m_n$共$n$組數據,而這些數據又可被表示為:
$$
m_1=m+\epsilon_1\\
m_2=m+\epsilon_2\\
.\\
.\\
.\\
m_n=m+\epsilon_n
$$
其中$m$為一常數,而$\epsilon_i$則代表第$i$組數據$m_i$與$m$之間的差值,亦即$\epsilon_i=m_i-m$。
上述的$n$個式子中有$m$、$\epsilon_1$、$\epsilon_2$...$\epsilon_n$共$n+1$個未知數,因此需要多引入一個額外條件才能解出方程式,在此須引入的即為**最小平方條件**。
首先定義各項數據與$m$之間的差值平方和$Q$:
$$
Q=\sum^{n}_{i=1}\epsilon_i^2
$$
若$Q$達**最小值**,則所求得的常數$m$即為與所有測量數據離散程度最小的數值,某個層面上可將滿足此條件的$m$視為這組數據的代表人物。
將$\epsilon_i=m_i-m$帶入$Q$的條件式經整理後可得:
$$
Q=\sum^{n}_{i=1}\epsilon_i^2=\sum^{n}_{i=1}(m_i-m)^2=n{\times}m^2-2(\sum^{n}_{i=1}m_i)m+\sum^{n}_{i=1}m_i^2
$$
其中只有$m$為變數,故$Q$又可被視為$m$的二次函數。
藉由配方法可得當$m$滿足下列條件時:
$$
m=\frac{\sum^{n}_{i=1}m_i}{n}
$$
$Q$即為最小值,且此時的$m$恰為所有數據的平均值!原來看到數據先平均的第一感,背後蘊藏的含義竟然如此合乎數學邏輯。
### 迴歸直線方程式推導
為了方便起見,在處理$n$組二維數據$(x_1,y_1)$、$(x_2,y_2)$...$(x_n,y_n)$時,我們會先把數據**標準化**,如此一來兩組變量的平均值$\mu_{x^\prime}=\mu_{y^\prime}=0$,且標準差$\sigma_{x^\prime}=\sigma_{y^\prime}=1$。
假設標準化後的迴歸直線方程式$L^\prime:y^\prime=mx^\prime+k$,則我們同樣可定義各數據點與迴歸直線之鉛直距離平方和$Q$:
$$
Q=\sum^{i=n}_{i=1}[y^\prime_i-(mx^\prime_i+k)]^2
$$
經整理後可得$Q$:
$$
Q=\sum^{i=n}_{i=1}{y^\prime_i}^2+m^2\sum^{i=n}_{i=1}{x^\prime_i}^2+nk^2-2m\sum^{i=n}_{i=1}x^\prime_iy^\prime_i-2k\sum^{i=n}_{i=1}y^\prime_i+2mk\sum^{i=n}_{i=1}x^\prime_i
$$
由於標準化後的平均值皆為$0$,故$\sum^{i=n}_{i=1}x^\prime_i=\sum^{i=n}_{i=1}y^\prime_i=0$,如此一來上式中的後兩項可消去;而由於此時與$k$有關的只剩$k^2$項,故此時$k=0$必為唯一解,故經標準化後的迴歸直線方程式**必過原點**,這非常合理,因為此時的原點即為原本數據之平均值。
經由上述消去若干項次後,可將$Q$改寫為:
$$
Q=(\sum^{i=n}_{i=1}{x^\prime_i}^2)m^2-2(\sum^{i=n}_{i=1}x^\prime_iy^\prime_i)m+\sum^{i=n}_{i=1}{y^\prime_i}^2
$$
同樣地,可藉由配方法而得當$m$滿足下列條件時:
$$
m=\frac{\sum^{i=n}_{i=1}x^\prime_iy^\prime_i}{\sum^{i=n}_{i=1}{x^\prime_i}^2}
$$
$Q$即為最小值。又因為此時數據之標準差為$1$且平均值為$0$,故可得$\sigma_{x^\prime}$為:
$$
\sigma_{x^\prime}=\frac{\sum^{i=n}_{i=1}{x^\prime_i}^2}{n}=1
$$
即可將迴歸直線的斜率$m$改寫為:
$$
m=\frac{\sum^{i=n}_{i=1}x^\prime_iy^\prime_i}{n}=r
$$
可發現斜率值經標準化後即為相關係數$r$!如此一來,便可寫下經標準化後的迴歸直線方程式$L^\prime$:
$$
L^\prime:y^\prime=rx^\prime
$$
將上式還原為原本的數據表示法,即可得前述之迴歸直線方程式$L$。
## 總結一定要記得的這件事
本篇文章著重於針對二維數據的處理與分析,當判斷兩組數據彼此之間具有高度的線性相關時,**標準化**通常會是幫助我們找到趨勢的首要步驟。若兩數據之間的相關係數$r$非常接近$+1$,稱其為高度正相關,非常接近$-1$則稱為高度正相關,如此一來便可運用最小平方法的概念,求出此組數據之**迴歸直線方程式**。
:::warning
藉由簡單的代數運算可證明,當二維數據經標準化後,通過原點且斜率恰為相關係數之直線,正好會滿足各個數據與此直線之鉛直距離平方和最小值的最小平方條件,故此直線即為能描述此組數據線性趨勢之**最佳直線**。當處理的數據點不多時,可利用最小平方條件或是帶入公式求得迴歸直線方程式,而當數據量增大時,則可利用Excel或是其他數值模擬軟體求得此式。
:::
