群套索正则化

2020-05-13 22:35:19

L1(Lasso)和L2(Ridge)正则化已被广泛用于机器学习以克服过拟合。特别是，套索会导致权重稀疏。另一种正则化是介于Lasso和Ridge正则化之间的，称为“群Lasso”，它也导致了权重的稀疏性。

在这篇博客文章中，我们将首先回顾一下套索和岭正则化，然后看看什么是套索集团，并了解为什么套索集团会导致权重稀疏。

假设$\beta$是参数集合。$\beta=\{\beta_1，\beta_2，\cdots，\beta_n$，则L0、L1和L2规范表示为$||\beta||_0$，$||\beta||_1$，$||\beta||_2$。它们被定义为。

给定一个数据集${X，y\}$，其中$X$是特征，$y$是回归的标签，我们简单地将其建模为具有线性关系$y=X\beta$。利用正则化方法，给出了L0、Lasso和Ridge回归的优化问题。

理想情况下，对于权重稀疏和特征选择，L0回归是最好的优化策略。然而，由于L0回归在任何地方都是不可微的。我们将L0回归放宽为Lasso回归，并且Lasso回归也会导致合理的权重稀疏性。

假设$\beta$中的权重可以分组，则新的权重向量变为$\beta_G=\{\beta^{(1)}，\beta^{(2)}，\cdots，\beta^{(M)}\}$。$1\leq l\leq m$的每个$\beta^{(L)}$表示来自$\beta$的一组权重。

我们相应地将$X$进一步分组。我们将$X^{(L)}$表示为X的子矩阵，其列对应于$\beta^{(L)}$中的权重。最优化问题变成了。

值得注意的是，当只有一个群，即$m=1$时，群Lasso等价于Ridge；当每个权重形成一个独立群，即$m=n$时，群Lasso变为Lasso。

对于套索造成的稀疏性，最直观的解释是套索$||\beta||_1$中沿轴线的不可微角更有可能与损失函数$||y-X\beta||_2^{2}$接触。在岭回归中，由于在岭$||\beta||_2$内处处可微，沿轴接触的几率极小。

还应注意，正则化强度$\λ$也很重要。当$\lambda$变大时，套索$||\beta||_1$的大小会变小，沿轴接触的机会会增加，因此权重变为零的数量会变大。相反，当$\lambda$变小时，套索$||\beta||_1$的大小会变大，沿轴接触的机会会变小，从而权重的数量会变小。请试着理解这一点，这一点很重要。

类似地，套索组合的原始作者提供了套索、套索组合和三维山脊的几何图形。特别地，套索组中，前两个权重$\beta_{11}、\beta_{12}$在组中，第三个权重$\beta_2$在一个组中。

因为在$\BETA_{11}\BETA_2$平面或$\BETA_{12}\BETA_2$平面上，沿轴仍有不可微角，所以沿轴接触的可能性很大。注意，对于相同的正则化强度$\lambda$，套索群的轴向接触几率比套索的小，但比山脊的大。

https://leimao.github.io/blog/Group-Lasso/

tags users