3.2 多元高斯分布模型_机器学习的算法分析和实践-QQ阅读女生青春网

除了前面从几何的角度（或者说从L²损失函数）看线性回归算法的逻辑，还可以从概率统计的角度看线性回归算法的逻辑。给出一组数据D={x₁，x₂，···，x_n}和对应的标签y₁，y₂，···，y_n，寻找一个线性函数f，使得余项

ϵ_i=y_i−f（x_i）

看上去类似白噪声，从而相互独立，而且满足同样一个正态分布N（0，σ²）。这里的f（x_i）=w^Tx_i+b。正态分布N（0，σ²）的密度函数为

所以，这些独立同分布的噪声的密度函数为

根据概率统计中的极大似然估计，希望估计参数w使得上述密度函数值为最大，从而计算

显然

所以，极大化密度函数就相当于做极小化，即

可以看到极大似然方法和最小二乘法的统一性。

使用极大似然方法还可以进一步推广最小二乘法的表示公式。如果要求

ϵ_i=y_i−f（x_i）

不一定是独立同分布，而是满足联合正态分布，其协方差矩阵为Ω，那么所有ϵ_i的密度函数为

再根据极大似然估计，得到

其解为