予測のためのデータ前処理(加工)にはさまざまな手法があります。本書では、非構造化データを中心に「予測するために」データ分析を進めていきます。前処理と銘打たれていますが、どちらかというとデータ加工のテクニックを記述した本です。
名称
著者
足立悠
概要
構造化データ、非構造化データにはデータの前処理(加工)という難題があります。非常に手間暇がかかり、かつ分析モデルの精度に大きく関わってきます。今回の書籍では、非構造化データを中心にデータ加工から予測モデルの構築まで、分析フレームワークCRISP-DMをベースに話を進めます。
この書籍は前処理というより、加工の本だと思われる。下記の定義の前処理なら、必要知識にある前処理大全がおすすめ。
データ分析の用語、加工と前処理で定義されていない気がする
前処理:データソースからデータマート等を構築するために必要な処理。
↓
加工:データマートから、より重要な特徴量を作成するための処理。
↓
モデル作成みたいな
— R@データ分析&ゲーム制作 (@Rei_Farms) January 17, 2022
必要知識
得られるスキル
Python, 欠損値補完, 不均衡データの均衡化, 正規化, クラスタリング, 次元削減
画像データの加工, 時系列データの加工, 自然言語データの加工
その他の教材紹介ページはこちら → Skill Stacks