notes about statistical learning

Lab Machine Learning Basic

最近看了一点关于统计学习的知识,主要是关于knn和线性回归两种模型。两个模型算是入门级的模型了,理应是相当简单易懂的,但书中花了不小的篇幅深入地(for me)探讨了两个模型的异同,着实有趣。但有些琐碎,不得不抓紧记录下来,不然很快就忘记了[]( ̄▽ ̄)*

另外我发现我对概率统计的知识都变得很陌生了,emmm。正在恶补。

参考书是 The Elements of Statistical Learning

step 1

首先是对两个模型一个简单的介绍。

Linear Models

对于一个 p 维向量的输入,\(x^T=\left(x_1,\dots,x_p\right)\),我们假设对应的输出与它是完全的线性关系,或者说是仿射的,即 \(\hat{y}=\beta_0+x^T\beta\)\(\beta_0\) 是我们熟知的 bias 。一般会用更紧致的表达 \(\hat{y}=x^T\beta\),也就是将前面的\(\beta_0\) 包含进去。

非常简单的模型,几何意义也非常丰富。

去拟合它的方法很多,最常用也是最重要的一个方法就是最小二乘法(least squares), 也就是去最小化 RSS (residual sum of squares)。

幸运的是,这个问题有一个唯一的解析解(如果 \(X^TX\) 是非奇异的) \(\hat{\beta}=(X^TX)^{-1}X^Ty\) ,这里 \(X\)\(N \times p\) 的矩阵,注意行、列含义。

That's it!

Nearest-Neighbor Methods

顾名思义,模型更加简单直接。不需要训练拟合,可以得到非常 "非线性" 的函数。

和它非常有关的,k=1 时,Voronoi 图。

step 2

未完 🐟

Comments