Buhlmann and van de Geer (2011) Section 6.2 Least squares and the Lasso 1/2
6.2.1 Introduction
- , . In matrix notation, .
- は固定, は i.i.d. とする.
For the moment, とおく.
- Least squares estimator:
- このとき,
- とくに, もわかる (as ).
- つまり, と正規化しておけば,各 を (全体としては ) の精度で推定可能.
以降では, と仮定する.
- Active set: , Sparsity index: .
- が既知かつ ならば,上の議論から,推定二乗誤差は になる.
- The Lasso:
\begin{align*}\hat \beta := \arg\min_\beta \left\{ \frac{|| \mathbf{Y} - \mathbf{X}\beta||_2^2}{n} + \lambda ||\beta||_1\right\}\end{align*}
- をうまく () のオーダーで選ぶと...
Oracle Inequality: .
つまり, がわからない場合でも だけの損失で済む.
6.2.2 The result assuming the truth is linear
Lemma 6.1 (Basic Inequality)
.
Proof.
の定義から,
\begin{align*}|| \mathbf{Y} - \mathbf{X}\hat \beta||_2^2/n + \lambda ||\hat \beta||_1 \le || \mathbf{Y} - \mathbf{X}\beta^0||_2^2/n + \lambda ||\beta^0||_1 \end{align*}
また, なので,これを代入すれば結果を得る.
- を empirical process part などと呼ぶ.
- Empirical process part は
\begin{align*}2|\epsilon^\top \mathbf{X}(\hat \beta - \beta^0)|/n \le 2 \left( \max_j |\epsilon^\top \mathbf{X}^{(j)}| \right) ||\hat \beta - \beta^0 ||_1/n\end{align*}
で bound できる.
- 通常, は empirical process part を dominate するように選ぶ.
- とするとき, とおくことで を目指す.
- Let and ().
Lemma 6.2
とする.このとき,任意の について, とおけば,
\begin{align*} \Pr(\mathcal{T}) \ge 1 - 2 \exp[-t^2/2]. \end{align*}
Proof.
仮定から, . したがって,
\begin{align*} \Pr(\mathcal{T}) & = \Pr\left(2 \max_j |\epsilon^\top \mathbf{X}^{(j)}|/n \gt 2 σ \sqrt{\frac{t^2 + 2 \log p}{n}} \right) \\ & = \Pr\left( \max_j |V_j| \gt \sqrt{t^2 + 2 \log p} \right) \\ & \le 2 p \exp \left[ - \frac{t^2 + 2 \log p}{2}\right] = 2 \exp \left[ - \frac{t^2}{2}\right]. \end{align*}*1
Corollary 6.1 (Consistency of the Lasso)
とする.このとき,任意の について, とおく. は の推定量.このとき,少なくとも の確率で
\begin{align*} 2||\mathbf{X}(\hat \beta - \beta^0)||^2_2/n \le 3 \lambda ||\beta^0||_1, \end{align*}
ただし
Proof.
Lemma 6.1 から,
\begin{align*}2 || \mathbf{X}(\hat \beta - \beta^0) ||_2^2/n & \le 4 \epsilon^\top \mathbf{X}(\hat \beta - \beta^0)/n + 2 \lambda ||\beta^0||_1 - 2 \lambda || \hat \beta ||_1 \end{align*}
ここで,もし ならば,三角不等式から
\begin{align*}2 || \mathbf{X}(\hat \beta - \beta^0) ||_2^2/n & \le \lambda || \hat \beta - \beta^0 || + 2 \lambda ||\beta^0||_1 - 2 \lambda || \hat \beta ||_1 \\ & \le 3\lambda ||\beta^0||_1\end{align*}
また,
\begin{align*}\Pr(4 \max_j |\epsilon^\top \mathbf{X}^{(j)}|/n \le \lambda) & = 1 - \Pr\left(4 \max_j |\epsilon^\top \mathbf{X}^{(j)}|/n \gt 4 \hat σ \sqrt{\frac{t^2 + 2 \log p}{n}} \right) \\ & \ge 1 - \Pr\left( \max_j |\epsilon^\top \mathbf{X}^{(j)}|/n \gt \hat σ \sqrt{\frac{t^2 + 2 \log p}{n}}, \hat σ \gt σ \right) - \Pr(\hat σ \le σ) \\ & \ge 1 - 2 \exp[-t^2/2] - \Pr(\hat σ \le σ) \end{align*}
- この結果から, であるとき, ならば Lasso は一致性を持つ.
*1:Chernoff bound + Standard normality