RのWeb制作

Webサービス制作のための技術情報を。

Python データサイエンス

[python]決定木(CHAID)のテストと可視化

投稿日:2020年1月18日 更新日:

意思決定のために使用される決定木分析

scikit-learnにはCART(giniまたはentropy)が採用されています。
これは2分岐しかせず、実務では単純すぎる、過学習させる等の理由から使われていません。

実務ではCHAID(カイ二乗値)が使われています。
利点としては、以下の2点が大きいです。
・多分岐
・過学習する前に学習を止める

ただ一般的なライブラリがないので、今回はライブラリのCHAIDを紹介します。

SPSSなどのBIツールとの差分を検証しました。(2020/05/27)
結論・・・差分が多すぎて再現性が取れない

BIツール)SPSS
python)CHAID

例えば、SPSSだと説明変数値のグループ化を自動でしてくれる機能があります。
CHAIDにはありません。

具体的には、SPSSで3分岐が下記のように出現したとします。
-10], (10-20], (20-30]

CHAIDだと下記のようになります。

[2, 5, 6, 7], [4, 9-18, 20, 25, 27], [1, 8, 19, 21, 23, 24], [3, 22, 26, 28, 29, 30]…

確かにCHAIDのカイ二乗値は高いですが、グループ化していないのでめちゃくちゃわかりにくい
意思決定のために分析をしているのに、読み取れない…。

「意味ないやんけコレ」ってなります。

残念。

-Python, データサイエンス

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

機械学習の勉強から見えた「間違いだらけのAI認識」

「AI」という字面が新聞にもネットニュースにも数多く出てくるようになりました。 ただ、機械学習を勉強してて思ったんですが・・・・AIの定義が曖昧すぎる 内容が書いてある記事も殆ど無いし…。 AIが行っ …

[Python:Predict Gollira]2枚の画像でどちらがゴリラっぽいかを人間が予想する。

「あーこの人ゴリラっぽい。」と思うことはありませんか? ゴリラっぽさってどこから来るんだろうかと悩んでいました。 前回、[Python] ディープラーニングのモデル「VGG16」を使って画像認識をし、 …

[Python]グリッドサーチを軽量化し、チューニングしたパラメータも反映する機構を作る

パラメータチューニング方法であるグリッドサーチ、 確かに自動で実行してくれて、すごく便利なのですが問題点があります。 めっちゃ時間がかかる もし、下記のパラメータ設定のモノを全てグリッドサーチしようと …

TensorFlow RNNで詰まるの巻

DeeplearningのフレームワークTensorFlowの学習まで漕ぎ着けました。 CNN(画像認識用と言っても過言ではない)はゼロから始めるディープラーニングでだいたいOK。 何度か読み返してわ …

[社内コンペ] 細胞画像認識

これは何? 某社で行われている社内コンペのメモです。私の備忘録でもあります。 結果:2位 精度:68.3% 120枚をクラス1~3で各40枚としていました。 ただし、その数値に合わせに行こうとすること …