Li, Cai & Li (2020) Transfer learning for high-dimensional linear regression: prediction, estimation, and minimax optimality, arXiv.
Introduction
- Target model: , .
- , can be larger than . : number of nonzero elements of . is much smaller than .
- Auxiliary models: , , .
- と は一般的に異なる.しかしもし両者が近い値をとるならば,target model をより効率的に推定できるかもしれない.
- Let . "Informative" auxiliary samples を次の集合で定義する:
\begin{align*} \mathcal{A}_q := \{k : ||\delta^{(k)}||_q \le h \}, \;\; \text{for} \;\; q \in [0,1] \end{align*}
- が小さいほど は informative. が空集合であることも許容.
Estimation with known informative auxiliary samples
- Let .
Oracle trans-Lasso algorithm
- for some
- Let , where for some .
- の probability limit を とする.また, である.
- Parameter space:
- 各 について, i.i.d. Gaussian + i.i.d. sub-Gaussian など仮定し,それらの下で以下を得る:
Theorem 1.
- が空集合の時は右辺は .これは通常のLassoと同じレート.
- ならば転移学習によって効率性が改善する.つまり, のほうが よりはるかに sparse である必要.
Theorem 2.
- Theorem 1 + Theorem 2 => Oracle trans-Lasso は minimax rate optimal.
Unknown Set of Informative Auxiliary Samples
- Let denote the sum of squared prediction error under , and denote an -dimensional simplex.
Oracle trans-Lasso algorithm
- Let be a random subset of .
- Construct candidate sets of , with .
- 各 と を用いて trans-Lasso を回す.その結果を とする.
- Compute Output .
- を空集合にしておくことで,auxiliary sample が完全に uninformative でも結果が(そこまで)悪化しないように保険.
- ならば Oracle trans-Lasso に近い結果が期待できる.
- として すべての組み合わせを考えるのは計算が大変(理論的にはOK??).
- どうやって を決めればいい?
- の構成により, と では前者のほうがより sparse.
- が sparse な -th sample から に追加すればよい.ただし は未知なので と を用いて推定.具体的な手順は論文参照.
諸々の仮定の下で以下を得る:
Theorem 3.