比例尺度の
- 年齢
- 同乗した兄弟姉妹・配偶者の数
- 同乗した親と子供の数
- 運賃
および「チケットのクラス」と「性別」の数値化、「乗船した港」の one-hot エンコーディングをしてみた 9 つの数量を特徴量として決定木と簡単なニューラルネットワークで 2 クラス分類の課題として取り組んでみた。
結果としては、どちらでもテストセットで大体 75〜79% 程度の精度になった。ニューラルネットならうまいこと非線形な扱いで攻め込めるかな?と思ったけど必ずしもそういうわけではなさそう。特徴量の作り込みがいけてない感じがする。ここからは特徴量エンジニアリングの世界かもしれないな。