Evidence Contrary to the Statistical View of Boosting

David Mease, Abraham Wyner; 9(Feb):131--156, 2008.

AdaBoostは強力な学習アルゴリズムである。しかも、2000年代になって、Additive Modelという統計モデルの上で論じられ、なぜAdaboostやその派生アルゴリズムが良好なのか、解析が進んできた。学習を繰り返しても過学習を起こさない、といわれてきたが、その後の研究で、その反例がいくつも報告されているように、未解明な問題も残っている。この論文では、弱学習器には決定木よりもDecision Stumpの方がよい、決定木の場合に多数学習を繰り返すと過学習を起こす、指数損失よりも二項対数尤度最小化の方がよい、学習回数を打ち切ったほうがよい、インスタンスウェイトの変更を穏やかに行うほうがよいなどの報告などは、必ずしも正しくないことをSyntheticなモデルから作られるデータを使って精密に論じる。あまりに精密で、４章はskip。

著者らの意図は、Friedmanら以来の統計モデルによる分析の限界を指摘し、別の視点からなのか、より包括的な理論に基づいてなのかはわからないが、Adaboostの研究が次の段階に進んでいくように方向付けることであるらしい。

Friedman以降のBoostingの理論的分析のよいサーベイになっていると思われるほか、RによるBoostingの実装例やこの論文で使ったサンプルコードなどもポイントしている。