2-1

分析为什么平方损失函数不适用于分类问题

第一，使用平方损失函数意味着我们默认数据服从正态分布，用统计术语来说就意味着我们假设了高斯先验。但很显然，分类问题的数据并不服从正态分布，比如二分类问题则服从伯努利分布。
第二，MSE函数对于分类问题是非凸的。如果使用MSE进行模型训练，则不能保证将Loss函数最小化。

补充

Why Using Mean Squared Error(MSE) Cost Function for Binary Classification is a Bad Idea?

2-2

$(x^{(n)},y^{(n)})$ $r^{(n)}$ ，经验风险函数为
$\mathcal{R}(\mathbf{w})=\frac {1}{2}\sum^{N}_{n=1}r^{(n)}\left(y^{(n)}-\mathbf{w}^\mathsf{T} \mathbf{x}^{(n)}\right)^2$
$w^*$ $r^{(n)}$ 的作用

$\frac{\partial {\mathcal R}(\mathbf w)}{\partial {\mathbf w}}$ ，另其等于0，即

\begin{align} \frac{\partial {\mathcal R}(\mathbf w)}{\partial {\mathbf w}} &=\frac{1}{2} \sum_{n=1}^{N}r^{(n)} \frac{\partial \left \|\mathbf {y-X^\mathsf T w} \right \|^2}{\partial \mathbf w} \\ &= - \frac {1}{2} \sum_{n=1}^{N} r^{(n)}(y-\mathbf X^{\mathsf T}\mathbf w ) =0 \end{align}

$\mathbf w^* = \sum_{n=1}^{N}r^{(n)}(XX^ \mathsf T)^{-1}Xy$

2-3

$N$ $D+1$ $\mathbf{XX^\mathsf{T}}$ $N$

$rank(AB)\leq\min\{R(A),R(B)\}$ ，可得

rank(\mathbf {XX^\mathsf T})\leq \min\{rank(\mathbf X),rank(\mathbf X^ \mathsf T)\}\\ 又rank(\mathbf X)=rank(\mathbf X^\mathsf T) \leq \min\{N,D+1 \}\\ N < D+1\\

$\mathbf {XX^\mathsf T}$ 的秩最大为N

2-4

在线性回归中，验证岭回归的解为结构风险最小化准则下的最小二乘估计，见公式2.44
$\mathcal R(w)=\frac{1}{2}||\mathbf y-X^\mathsf{T}||^2+\frac{1}{2}\lambda||w||^2$

对结构风险最小化的目标函数进行求导，得到

\frac{\partial {\mathcal R}(\mathbf w)}{\partial {\mathbf w}}=-\mathbf X(\mathbf y- \mathbf X^ \mathsf T \mathbf w)+\lambda \mathbf w \\ 令上式等于0，得\\ -\mathbf X(\mathbf y- \mathbf X^ \mathsf T \mathbf w)+\lambda \mathbf w=0\\ 则\mathbf{Xy = XX^\mathsf {T} w+\lambda w}\\ \mathbf{Xy = (XX^\mathsf {T} +\lambda I) w}\\ \mathbf {w = (XX^\mathsf {T} +\lambda I)^{-1}Xy}

由此岭回归的解即为结构风险最小化准则下的最小二乘估计

2-5

$y\sim\mathcal {N}(\mathbf w^\mathsf{T} \mathbf x,\beta)$ ，并用最大似然估计来优化参数，验证最优参数为公式2.52的解

写出对数似然函数

\begin{align}<br>\log p(\mathbf {y|X;w,\beta})&=\sum_{n=1}^N \log \mathcal N(y^{(n)};\mathbf w^\mathsf T \mathbf x^{(n)},\beta ^ 2) \\<br>&=\sum_{n=1}^N \log \left( \frac{1}{\sqrt{2 \pi}\beta}exp\left(-\frac{(y^{(n)}-\mathbf{w^ \mathsf T x})^2}{2\beta ^2} \right) \right)\\<br>&=\sum_{n=1}^N\log \frac{1}{\sqrt{2\pi}\beta}+\sum_{n=1}^{N}\log \left( exp\left(-\frac{(y^{(n)}-\mathbf{w^ \mathsf T x})^2}{2\beta ^2} \right) \right) \\<br><br>\end{align}

$\mathbf w$ $e$ ，得

\begin{align} \frac{\partial p}{\partial \mathbf w} &= 0 - \frac{1}{2\beta ^2}\frac{\partial(\left\| \mathbf y - \mathbf X^\mathsf T \mathbf w \right\|^2)}{\partial \mathbf w} \\ &=-\frac{1}{2\beta^2}\mathbf X(\mathbf y-\mathbf{X^\mathsf T w})\\ &=0\\ 得w^* &= (\mathbf {XX}^ \mathsf T)^{-1}\mathbf{Xy} \end{align}

2-6

$N$ $x^{(1)},x^{(2)},...,x^{(N)}$ $\mathcal N(\mu ,\sigma^2)$ $\mu$ 未知。
$\mu ^ {ML}$
$\mu$ $\mathcal N(\mu_0,\sigma_0^2)$ $\mu^{MAP}$

写出对数似然函数:
$\begin{align} \log p() &= \sum_{n=1}^N\log \mathcal N(x^{(n)};\mu,\sigma^2)\\ &=\sum_{n=1}^N\log \frac{1}{\sqrt{2\pi}\sigma}+\sum_{n=1}^{N}\log \left( exp\left(-\frac{(x^{(n)}-\mu)^2}{2\sigma ^2} \right) \right) \end{align}$
$\mu$ 求导，令其等于0，得：
$\sum_{n=1}^N \frac{1}{\sigma^2}(x^{(n)}-\mu)=0\\ \mu^{ML}= \frac{1}{N}\sum_{n=1}^N x^{(n)}$

由题有:
$p(\mu) = \frac{1}{\sqrt{2\pi}\sigma_0}exp(-\frac{(\mu-\mu_0)^2}{2\sigma^2_0})\\$
通过：
$\frac{\partial{\log \left(\prod_{n=1}^N p(X|\mu)p(\mu)\right)}}{\partial\mu}=0\\ 即 \sum_{n=1}^N \frac{1}{\sigma^2}(x^{(n)}-\mu)-\frac{1}{\sigma_0^2}(\mu-\mu_0 )=0$
得到最大后验概率估计：
$\mu^{MAP} = \frac{\mu_0+\frac{\sigma_0^2}{\sigma^2}\sum_{n=1}^Nx^{(n)}}{1+\frac{\sigma_0^2}{\sigma^2}N}$