勾配ブースティング木 (5) - らんだむな記憶

ここ数年は「〇〇を使わなくても SOTA に近い性能が出せる」というモデルをよく見かける気がする。例えば、Vision Transformer は CNN を使わなくても、CNN を使った SOTA モデルに近い性能を出せると謳っていたと思う。

LightGBM の論文を読むと、既存の勾配ブースティング決定木はデータインスタンスをフルスキャンしないとならないのでビッグデータを相手にする際に時間がかかる旨が記載されいてる。また本来は NP 困難な手法を伴う特徴量の削減について貪欲アルゴリズムを用いた近似的なアプローチを用いて実現しているとある。これによってビッグデータに対しても精度と効率を維持できるということが謳い文句のようだ。

タイタニック (5) - らんだむな記憶では詳細を記載しなかったが、LightGBM で少しスコアが低かった。使い方やデータの前処理がイマイチなのだろうと思っていたがそういうわけではなかったのかもしれない。タイタニックのデータは全然ビッグデータではないので、素直に XGBoost で良かったのかもしれない。

表面的な情報として、Kaggle で人気だとか、初手は LightGBM とかいうものに踊らされてしまったが、どういう経緯で出てきたモデルであるのか確認するべきだったかもしれない。斜め読みをするだけでもビッグデータであるならば初手に最適に見えるが、小さいデータセットならどうか分からない。例えば、CuPy や JAX を小さな行列に使ったからといって何かが爆速になるわけではなく、これは素直に NumPy を使えば良い。そういう感じだと思う。なかなかまとめサイトに全てが書いてあるわけでもないし、時間的に余裕がある時に自分で論文を読むことには多少の価値はありそうだ。

論文では同時の非ゼロにならないような特徴量を束ねるアルゴリズムが NP 困難ということで近似的なアプローチをとることにしているが、もしも量子コンピュータがこの計算を高速化できたりすると、LightGBM は更に精度の高いものになるのだろうか？