RのWeb制作

Webサービス制作のための技術情報を。

Python データサイエンス

[python]決定木(CHAID)のテストと可視化(未完成)

投稿日:

意思決定のために使用される決定木分析

scikit-learnにはCART(giniまたはentropy)が採用されています。
これは2分岐しかせず、実務では単純すぎる、過学習させる等の理由から使われていません。

実務ではCHAID(カイ二乗値)が使われています。
利点としては、以下の2点が大きいです。
・多分岐
・過学習する前に学習を止める

ただ一般的なライブラリがないので、今回はライブラリのCHAIDを紹介します。

SPSS等との差分は未検証です。
検証が終了次第、追記させていただきます。

-Python, データサイエンス

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

[Meisyo]パラメータバランス調整 ver 0.10(a)

パラメータバランスを調整します。 理由としては、ミートが強すぎるからです。 ミートが神の地位を手に入れて早・・・というより、Meisyoが最初からそうだった。 「ミートを上げれば即ち打てる」で、パワー …

pythonのnumpyで遊ぶ

異常に奥が深いnumpyで遊びましょう!! import numpy as np 配列の形状変換 a = np.arange(int(np.floor(np.random.rand()*1000))) …

機械学習の勉強から見えた「間違いだらけのAI認識」

「AI」という字面が新聞にもネットニュースにも数多く出てくるようになりました。 ただ、機械学習を勉強してて思ったんですが・・・・AIの定義が曖昧すぎる 内容が書いてある記事も殆ど無いし…。 AIが行っ …

【初心者向け】mysqlclientのインストールで詰まったときの補足

コマンドラインでmysqlを使いたい!と思ったら、思わぬ罠がありましたので紹介します。 *僕の場合はpythonで使いたい!というものでしたが、他でも使えることを確認しています。 まずコマンドラインで …

【社内コンペ】回帰分析メモ 完全版

これは何? 某社で行われている社内コンペのメモです。私の備忘録でもあります。 結果:1問差で2位でした。残念。 今回の目的変数 建築物の坪単価 ※「え、建物の単価じゃないのか」と思ったあなたは正常。 …