タイタニックのデータセットの特徴量は年齢, 同乗した兄弟姉妹・配偶者の数, 同乗した親と子供の数, 運賃, チケットのクラス, 性別, チケット番号, 客室の番号, 乗船した港, 名前である。これを名義尺度, 順序尺度, 間隔尺度, 比例尺度に分類してみよう。
名義尺度
- 性別
- チケット番号
- 客室の番号
- 乗船した港
- 名前
順序尺度
- チケットのクラス
間隔尺度
- なし
比例尺度
- 年齢
- 同乗した兄弟姉妹・配偶者の数
- 同乗した親と子供の数
- 運賃
だろうか。名義尺度は説明変数としてはちょっと使いにくそうだ。或は、他の特徴量から間接的に関係していそうにも思える。運賃は「同乗した親と子供の数」や「チケットのクラス」と関係しているかもしれない。
とりあえずざっと分類してみるとカテゴリの違う特徴量が混じっていることが分かる。一番使いやすいのは比例尺度であるが、他のものもワンホットエンコーディングなどして使えるかもしれない。少し関係性を眺めてみるのは良い練習になりそうだ。
まずは
import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt
から入ることになる。
Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ | マイナビブックス から GitHub - abhishekkrthakur/approachingalmost: Approaching (Almost) Any Machine Learning Problem に飛んで pdf を眺めるのも良さそうである。