Webサービス制作のための技術情報を。データ分析（Python、機械学習コンペ他）や自作野球ゲームMeisyoのこと中心。

Python データサイエンスデータサイエンスおすすめ教材紹介【Skill Stacks】

【教材紹介】機械学習のための「前処理」入門

投稿日：2022年1月21日更新日：2022年1月29日

予測のためのデータ前処理（加工）にはさまざまな手法があります。本書では、非構造化データを中心に「予測するために」データ分析を進めていきます。前処理と銘打たれていますが、どちらかというとデータ加工のテクニックを記述した本です。

名称

機械学習のための「前処理」入門

著者

足立悠

概要

構造化データ、非構造化データにはデータの前処理（加工）という難題があります。非常に手間暇がかかり、かつ分析モデルの精度に大きく関わってきます。今回の書籍では、非構造化データを中心にデータ加工から予測モデルの構築まで、分析フレームワークCRISP-DMをベースに話を進めます。

この書籍は前処理というより、加工の本だと思われる。下記の定義の前処理なら、必要知識にある前処理大全がおすすめ。

データ分析の用語、加工と前処理で定義されていない気がする

前処理：データソースからデータマート等を構築するために必要な処理。
↓
加工：データマートから、より重要な特徴量を作成するための処理。
↓
モデル作成

みたいな

— R@データ分析＆ゲーム制作 (@Rei_Farms) January 17, 2022

必要知識

【教材紹介】前処理大全

得られるスキル

Python, 欠損値補完, 不均衡データの均衡化, 正規化, クラスタリング, 次元削減
画像データの加工, 時系列データの加工, 自然言語データの加工

その他の教材紹介ページはこちら → Skill Stacks

-Python, データサイエンス, データサイエンスおすすめ教材紹介【Skill Stacks】

執筆者：rei

comment コメントをキャンセル

関連記事

: [Kaggle] Titanic 約80% by ランダムフォレスト

実力不足感が否めませんが、Kaggleのチュートリアル的なTitanicにおいてランダムフォレストで正答率約80%を出せたのでコードを載せておきます。 Colaboratory 実施期間：2019/0 …

: [Python] 機械学習での変数選択自動化（SVRを例に）

今回、会社のコンペで255というとんでもない量の変数を扱うことになりました。価格予想を行うコンペです。今回のデータのおさらいデータ量は1500程度。8:2で分けると検証データが300しかないすご …

: [Meisyo]練習難易度の不均衡是正への分析的アプローチ2

[Meisyo]練習難易度の不均衡是正への分析的アプローチから早3か月。「練習ごとに難易度が違いすぎるんですけど！！」という不満は少しは解消されたかなー・・・効果測定してないのにわかるの？エスパー …

: pythonのnumpyで遊ぶ

異常に奥が深いnumpyで遊びましょう！！ import numpy as np 配列の形状変換 a = np.arange(int(np.floor(np.random.rand()*1000))) …

: 2022年プログラミング初心者におすすめのPCと備品

はじめにプログラミング始めてみたい（始めてる）けど、パソコン用意したいなあと思った時、ググってみるといろいろ情報がありすぎて困ったあなた。 PC・プログラミング歴20年以上私が見るに、アフィリエイト …

PREV: 【教材紹介】前処理大全
NEXT: 【教材紹介】機械学習を解釈する技術

Meisyo：
高校野球チーム育成シミュレーションゲーム。
監督たちの甲子園世紀の逆転劇
 名将と呼ばれた者達＋
名将と呼ばれた者達

メインサイト：Rの考え方

: 2026/04/16

【MeisyoNX開発 vol.9】αテスト開始しました

: 2026/04/01

【MeisyoNX開発 vol.8】大体できたのでαテスト用に準備をするでござるの巻

: 2026/03/03

【MeisyoNX開発 vol.7】試合を作るの巻

: 2026/02/04

【MeisyoNX開発 vol.6】放置ゲー化するの巻

: 2025/11/29

【MeisyoNX開発 vol.5】作り直しの儀