RのWeb制作

Webサービス制作のための技術情報を。

Python データサイエンス

[python]決定木(CHAID)のテストと可視化(未完成)

投稿日:

意思決定のために使用される決定木分析

scikit-learnにはCART(giniまたはentropy)が採用されています。
これは2分岐しかせず、実務では単純すぎる、過学習させる等の理由から使われていません。

実務ではCHAID(カイ二乗値)が使われています。
利点としては、以下の2点が大きいです。
・多分岐
・過学習する前に学習を止める

ただ一般的なライブラリがないので、今回はライブラリのCHAIDを紹介します。

SPSS等との差分は未検証です。
検証が終了次第、追記させていただきます。

-Python, データサイエンス

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

手書き数字診断士(機械学習)ver 0.0

手書き数字診断士、まずは動くようにしました。 ただ、初っ端から間違えています・・・! 動画 http://webmaking.rei-farms.jp/wp-content/uploads/2018/ …

[Python]グリッドサーチを軽量化し、チューニングしたパラメータも反映する機構を作る

パラメータチューニング方法であるグリッドサーチ、 確かに自動で実行してくれて、すごく便利なのですが問題点があります。 めっちゃ時間がかかる もし、下記のパラメータ設定のモノを全てグリッドサーチしようと …

[python]MNISTの学習モデルを保存し、テストする

機械学習のHello World的なMNISTにて、学習モデルを保存し、実行する際のメモ。 用意するもの PC コマンドプロンプト インストール(python、sklearn、numpy) 学習時のコ …

[Python] tensorflow_datasetsで詰まったとき

「図解速習 DEEPLEARNING」で自己環境(Windows)で学習していました。 tensorflow_datasetsって何だ・・・? import tensorflow_datasets a …

[Python] tensorflowが「ImportError: DLL load failed」で困った件について

ImportError: DLL load failed: The specified module could not be found おおん・・・? 今回Tensorflowの新バージョン2.0 …