らんだむな記憶

blogというものを体験してみようか!的なー

タイタニック (3)

比例尺度の

  • 年齢
  • 同乗した兄弟姉妹・配偶者の数
  • 同乗した親と子供の数
  • 運賃

および「チケットのクラス」と「性別」の数値化、「乗船した港」の one-hot エンコーディングをしてみた 9 つの数量を特徴量として決定木と簡単なニューラルネットワークで 2 クラス分類の課題として取り組んでみた。
結果としては、どちらでもテストセットで大体 75〜79% 程度の精度になった。ニューラルネットならうまいこと非線形な扱いで攻め込めるかな?と思ったけど必ずしもそういうわけではなさそう。特徴量の作り込みがいけてない感じがする。ここからは特徴量エンジニアリングの世界かもしれないな。