RのWeb制作

Webサービス制作のための技術情報を。データ分析(Python、機械学習コンペ他)や自作野球ゲームMeisyoのこと中心。

データサイエンス データサイエンスおすすめ教材紹介【Skill Stacks】

【教材紹介】Interpretable Machine Learning(邦訳:解釈可能な機械学習)

投稿日:

機械学習の解釈可能性については、近年さらに重要視されています。
なぜでしょうか?それは、この書籍に記載されています。

このWebサイト(なんと無料!)では、説明性の性質の違いや、人間が考える良い説明とは何かを説明しています。 テーブルデータに対する網羅的な解釈可能性を学ぶには良い教材でしょう。

名称


Interpretable Machine Learning(邦訳:解釈可能な機械学習)

著者

Christoph Molnar
翻訳:株式会社HACARUS

概要

機械学習は多くの可能性を秘めています。
ただし、なぜそのような予測が出されたのか、理由が分からなければ検査もできず、バグにも対応できません。

例えば、ある画像認識のAIでは、オオカミと予測するには背景が白である(雪!)ことが重要で、競争馬と予測するには背景が緑である(芝生!)必要がありました。
そのように、なぜそのように予測されたのかがわからなければ、危なくて使えません。(上記のモデルは使いたくありませんね。)

本書では、下記のように触れられています。

なぜモデルの解釈可能性がそれほど重要なのか、もう少し考えてみましょう。何らかの予測モデルを構築する場合、そこに発生するトレードオフについて考える必要があります: あなたは顧客を集める可能性や、薬がどれだけ患者に効果的か、といったそのモデルが予測する結果についてのみ知りたいのでしょうか。それともたとえ予測性能が下がったとしても予測がなされた理由が知りたいのでしょうか。確かに、一部の事例では予測がなされた理由は必要なく、テストデータに対する予測性能のみを知ることができれば十分だと思います。しかし、この理由について知ることはその問題やデータに対する理解を深め、モデルが判断を誤る際にもその原因を探ることに役立ちます。

現実にモデルを適用するためには、意思決定者がYesと言える材料が必要ですし、利用者も何となくではOKを出さないでしょう。特に、自動運転や診療行為の自動化のような、命にかかわってくる部分には。
そのため、今回の書籍で学びましょう!

必要知識

機械学習の基礎的な知識
※プログラミング知識は、RやPythonなど1つ程度あれば十分対応可能です。

得られるスキル

テーブルデータの機械学習の解釈可能性の理論
Partial Dependence Plot、Individual Conditional Expectation、Accumulated Local Effects、特徴量の相互作用、Permutation Feature Importance、Global Surrogate、LIME、Anchors、SHAP、ニューラルネットワークの解釈
Counterfactual Explanations、Adversarial Examples、prototypeとcriticism、Influential Instances

こちらは、テーブルデータを重点的に説明した書籍です。いろいろなデータの大局的な説明が必要な場合は、【教材紹介】XAI(説明可能なAI)をご覧ください。
その他の教材紹介ページはこちら → Skill Stacks

-データサイエンス, データサイエンスおすすめ教材紹介【Skill Stacks】

執筆者:


comment

メールアドレスが公開されることはありません。

関連記事

分析スキルも大事だけど、思考法の方が大事だよっていう話

データサイエンス関連の仕事をしていて思うのは、 分析スキルも大事だけど、思考法の方が大事だよっていう話です。 最近、会社で教育・OJT関連の業務をしていて切に思うので、つらつらと書いていきます。 まず …

ノートPCとPythonでできる音声合成

「音声合成やってみたいけど難しそうだなあ」 私もそう思っていました。 私が使おうとしたきっかけは、大量の青空文庫の書籍を機械に朗読させたいと思ったからです。 そこで、調べてみるとできるということが分か …

【教材紹介】Python ゼロからはじめるプログラミング

概要 「プログラミング、興味はあるけどどう始めたらいいのかわからない。」というあなた!まずは、丁寧な説明と図、問題集までついたこの1冊(無料PDFあり)で入門してみませんか? 内容を確認しましたが、こ …

[Meisyo] 練習の不均衡是正

練習に不均衡が生じているので、アップデートで改善します。 ちなみに練習の方法自体を変更しようと思っています。 すぐには実装しません。(案が固まっていないです) 基本的に平均が150より大幅に高い(また …

[Kaggle] Titanic 約80% by ランダムフォレスト

実力不足感が否めませんが、Kaggleのチュートリアル的なTitanicにおいてランダムフォレストで正答率約80%を出せたのでコードを載せておきます。 Colaboratory 実施期間:2019/0 …