RのWeb制作

Webサービス制作のための技術情報を。

Python データサイエンス

[python]決定木(CHAID)のテストと可視化

投稿日:2020年1月18日 更新日:

意思決定のために使用される決定木分析

scikit-learnにはCART(giniまたはentropy)が採用されています。
これは2分岐しかせず、実務では単純すぎる、過学習させる等の理由から使われていません。

実務ではCHAID(カイ二乗値)が使われています。
利点としては、以下の2点が大きいです。
・多分岐
・過学習する前に学習を止める

ただ一般的なライブラリがないので、今回はライブラリのCHAIDを紹介します。

SPSSなどのBIツールとの差分を検証しました。(2020/05/27)
結論・・・差分が多すぎて再現性が取れない

BIツール)SPSS
python)CHAID

例えば、SPSSだと説明変数値のグループ化を自動でしてくれる機能があります。
CHAIDにはありません。

具体的には、SPSSで3分岐が下記のように出現したとします。
-10], (10-20], (20-30]

CHAIDだと下記のようになります。

[2, 5, 6, 7], [4, 9-18, 20, 25, 27], [1, 8, 19, 21, 23, 24], [3, 22, 26, 28, 29, 30]…

確かにCHAIDのカイ二乗値は高いですが、グループ化していないのでめちゃくちゃわかりにくい
意思決定のために分析をしているのに、読み取れない…。

「意味ないやんけコレ」ってなります。

残念。

-Python, データサイエンス

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

【初心者向け】mysqlclientのインストールで詰まったときの補足

コマンドラインでmysqlを使いたい!と思ったら、思わぬ罠がありましたので紹介します。 *僕の場合はpythonで使いたい!というものでしたが、他でも使えることを確認しています。 まずコマンドラインで …

[Meisyo]練習難易度の不均衡是正への分析的アプローチ2

[Meisyo]練習難易度の不均衡是正への分析的アプローチから早3か月。 「練習ごとに難易度が違いすぎるんですけど!!」という不満は少しは解消されたかなー・・・ 効果測定してないのにわかるの?エスパー …

[Python:Predict Gollira]2枚の画像でどちらがゴリラっぽいかを人間が予想する。

「あーこの人ゴリラっぽい。」と思うことはありませんか? ゴリラっぽさってどこから来るんだろうかと悩んでいました。 前回、[Python] ディープラーニングのモデル「VGG16」を使って画像認識をし、 …

手書き数字診断士(機械学習)ver 0.0

手書き数字診断士、まずは動くようにしました。 ただ、初っ端から間違えています・・・! 動画 http://webmaking.rei-farms.jp/wp-content/uploads/2018/ …

「実践!Chainerとロボットで学ぶディープラーニング」を作ってみた

実践!Chainerとロボットで学ぶディープラーニングを購入しました。 単純にロボを動かすのは楽しいです。 周りに意外と買った人が居ないようなので、レビューを書きました。 所感 ちょっとお高いけど、土 …