RのWeb制作

Webサービス制作のための技術情報を。データ分析(Python、機械学習コンペ他)や自作野球ゲームMeisyoのこと中心。

データサイエンス データサイエンスおすすめ教材紹介【Skill Stacks】

【教材紹介】Interpretable Machine Learning(邦訳:解釈可能な機械学習)

投稿日:

機械学習の解釈可能性については、近年さらに重要視されています。
なぜでしょうか?それは、この書籍に記載されています。

このWebサイト(なんと無料!)では、説明性の性質の違いや、人間が考える良い説明とは何かを説明しています。 テーブルデータに対する網羅的な解釈可能性を学ぶには良い教材でしょう。

名称


Interpretable Machine Learning(邦訳:解釈可能な機械学習)

著者

Christoph Molnar
翻訳:株式会社HACARUS

概要

機械学習は多くの可能性を秘めています。
ただし、なぜそのような予測が出されたのか、理由が分からなければ検査もできず、バグにも対応できません。

例えば、ある画像認識のAIでは、オオカミと予測するには背景が白である(雪!)ことが重要で、競争馬と予測するには背景が緑である(芝生!)必要がありました。
そのように、なぜそのように予測されたのかがわからなければ、危なくて使えません。(上記のモデルは使いたくありませんね。)

本書では、下記のように触れられています。

なぜモデルの解釈可能性がそれほど重要なのか、もう少し考えてみましょう。何らかの予測モデルを構築する場合、そこに発生するトレードオフについて考える必要があります: あなたは顧客を集める可能性や、薬がどれだけ患者に効果的か、といったそのモデルが予測する結果についてのみ知りたいのでしょうか。それともたとえ予測性能が下がったとしても予測がなされた理由が知りたいのでしょうか。確かに、一部の事例では予測がなされた理由は必要なく、テストデータに対する予測性能のみを知ることができれば十分だと思います。しかし、この理由について知ることはその問題やデータに対する理解を深め、モデルが判断を誤る際にもその原因を探ることに役立ちます。

現実にモデルを適用するためには、意思決定者がYesと言える材料が必要ですし、利用者も何となくではOKを出さないでしょう。特に、自動運転や診療行為の自動化のような、命にかかわってくる部分には。
そのため、今回の書籍で学びましょう!

必要知識

機械学習の基礎的な知識
※プログラミング知識は、RやPythonなど1つ程度あれば十分対応可能です。

得られるスキル

テーブルデータの機械学習の解釈可能性の理論
Partial Dependence Plot、Individual Conditional Expectation、Accumulated Local Effects、特徴量の相互作用、Permutation Feature Importance、Global Surrogate、LIME、Anchors、SHAP、ニューラルネットワークの解釈
Counterfactual Explanations、Adversarial Examples、prototypeとcriticism、Influential Instances

こちらは、テーブルデータを重点的に説明した書籍です。いろいろなデータの大局的な説明が必要な場合は、【教材紹介】XAI(説明可能なAI)をご覧ください。
その他の教材紹介ページはこちら → Skill Stacks

-データサイエンス, データサイエンスおすすめ教材紹介【Skill Stacks】

執筆者:


comment

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

関連記事

【教材紹介】すぐわかる統計処理の選び方

データは揃った。ただ、どんな分析をすればいいのかわからない。そんな人に向けて、データのパターン別に分析方法をレクチャーする本を紹介します。 名称 すぐわかる統計処理の選び方 著者 石村貞夫・石村光資郎 …

【教材紹介】深層学習 2020年度春学期 · ニューヨーク大学データ・サイエンス・センター

米国大学のコンピューターサイエンスの講義を無料で、かつ日本語で公開されている教材がありましたので共有いたします。 名称 深層学習 DS-GA 1008 · 2020年度春学期 · ニューヨーク大学デー …

[Meisyo] 練習の不均衡是正

練習に不均衡が生じているので、アップデートで改善します。 ちなみに練習の方法自体を変更しようと思っています。 すぐには実装しません。(案が固まっていないです) 基本的に平均が150より大幅に高い(また …

スッキリわかるSQL入門 第2版 題材A 問75

回答が非常に長い気がするのはなぜだろうか。 /* 自己結合を用いた場合 */ SELECT DISTINCT K1.名義, K1.口座番号, K1.種別, K1.残高, K1.更新日 FROM 口座 …

野球ゲームデータで遊ぶデータサイエンス(正規分布の検定編)

名将と呼ばれた者達のデータを使って、データサイエンスを学んでみましょう! 生きた&整えられたデータは中々公開されていないので、今回の野球ゲームのデータは分析に適していると思われます。もちろん、Kagg …