[Kaggle] Titanic 約80% by ランダムフォレスト

rei

7年前

実力不足感が否めませんが、Kaggleのチュートリアル的なTitanicにおいてランダムフォレストで正答率約80%を出せたのでコードを載せておきます。
Colaboratory

実施期間：2019/02/07～02/19
的中率：46%→80%
使用識別器：ロジスティック回帰、ランダムフォレスト、SVM、K-means、カーネルSVM
グリッドサーチ：あり

注意したこと：
・データをよく観察する。
・欠損値はよく考えて埋める。適当に埋めない。
・1つずつ理由を考える。

問題点：
・識別器の違いが判らなかった。（だいたい分かるようになってきた）
・分析のためのコードの書き方がわからなかった。
・名前の分類凝りすぎた感。（＋αするなら男の名前と女の名前で列を分けたほうが良かったかも？）
・データ正規化の自作関数、data_normalize()がWarning出てしまう。
・NNとかCNN、LGBなどの優秀な識別器を自作できなかった。理解が足りない。
・ほぼほぼモノマネに終始してしまった。
・上のColaboratory URL完成してない！
・「もし乗客になった場合、死亡確率を下げるにはどうしたらいいの？」という問いに答えられない。

感想：
・時間かかったけど楽しかった。
・KaggleはPythonに慣れるのにはよさそう。
・他の人のコードをもっと読みたい。（カーネル読もね）
・Pythonやデータサイエンスの理解を深めたい。で、仕事で使いたい。

【追記：04/30】
LightGBM、XGBoostをさらに試したところ、84%の精度が出ました。
・・・とは言え、単純な「データ加工→学習→出力」ではチューニングしたランダムフォレストが一番精度高かったです。
2つのBoosting系は、出力後の結果を再度取り込んで学習させるなど、さらなる精度を求めるならよさそうです。（なお、ノンチューニングなので真価は発揮していない）