らんだむな記憶

blogというものを体験してみようか!的なー

SVM と GBM

『実践Data Scienceシリーズ PythonではじめるKaggleスタートブック』(石原 祥太郎,村田 秀樹)|講談社BOOK倶楽部 に Kaggle ではロジスティック回帰や SVM よりも GDM 系のほうが良さそうという感じのコラムが書かれている。なんとなくわかる気がする。

ロジスティック回帰も SVM も基本的には線形分類だと思う。カーネル SVM なら非線形な領域を作れるけど、RKHS(再生核ヒルベルト空間)を構成できるカーネルを使わないとカーネルトリックが使えないので、結局 RBF カーネルとかになりそう。RBF カーネルを使った RKHS の中で結局超平面を使った線形分類をするだけなので、制約は大きいと感じる。その RKHS の中でデータがうまく分かれていていい感じにマージンを最大化したらそれで済むのか?という。
それであれば最初から柔軟に非線形な境界で分類できる決定木や GBM に分があっても不思議ではない。実際、難しいコンペだったら GBM や NN で非線形な境界を描いていかないと厳しいんじゃないだろうか?ま、ただの妄想だけど。