RのWeb制作

Webサービス制作のための技術情報を。データ分析(Python、機械学習コンペ他)や自作野球ゲームMeisyoのこと中心。

データサイエンス

分析スキルも大事だけど、思考法の方が大事だよっていう話

投稿日:

データサイエンス関連の仕事をしていて思うのは、

分析スキルも大事だけど、思考法の方が大事だよっていう話です。

最近、会社で教育・OJT関連の業務をしていて切に思うので、つらつらと書いていきます。

まず第一に、スキルは大事です。

大事ですが・・・記憶力のいいひとには、スキルは割と簡単に身に付きます。
特に簡易的な解説書がある分野に関しては、すごく早いスピードで身に付きます。
ただ、そこには価値があるのだろうかと思うことが多いのです。

正しい目標設定がなければ、事業は、仕事は上手く行きません

その目標設定ができる、自分なりの思考方法を持っている人が少ないなと思います。
持っていなければ過去の焼き直ししかできないので。

もちろん、思考法は確度の高い正解を求めることができますが、唯一絶対の答えを示すことはできないです。失敗は当たり前です。

目標設定ができた上で、分析スキルが活躍します。
あくまで分析スキルは、目的が上手くハマったときにしか生きません。
したがって、思考法を鍛えたいよねという話を良くしています。
あとは、その事業の内容を理解していないと話にならないよねとも。

例えば、ソーシャルゲーム業界の案件で、あるゲームの売り上げを伸ばしたいとします。

自然言語処理でレビューサイトの出現する言葉の傾向を見て、
良いレビュー群はさらに伸ばしていくべきポイント、悪いレビュー群は改修すべきポイントと仮定します。

ただし、分析の前にゲーム内容を確認していません。
さて、どのような分析結果になるのでしょうか?



予想するに、当たり前の結果しか出てこないとなるでしょう。
しかも、施策に反映しても売り上げに良い影響がある確率は非常に低いです。

なぜなら、売り上げとレビューが関連するという前提が正しいのかどうかわからないです。

細かく指摘をすると、以下のように様々な前提を検証していない中で、自然言語処理を使うことが目的になっているからです。
・サービス(ここで言うゲーム)内容を把握しておらず、コメントが事実かどうかが分からない。
・レビューは具体的な改修ポイントを言っていないことが多く、あくまで1プレイヤーの感覚であることが多い。
・自由文で書かれているため、評価が非常に難しい。英語では皮肉が割と多い。

なぜその内容をするのか、その手法でなければならない理由は何かという思考法がないんですよね。

そのため、スキルより、思考法を鍛えたいですねという結論になります。

思考法を鍛える方法は割と簡単で、分かっている人に対して壁打ちをすることです。
色々な本はありますし、学ぶのは難しくありません。

もちろん、最初は思考が上手く行かないので、自分の思考法が否定されます。
そこで自分を否定されたと思う人が多いんですよね。

ここが大きな壁です。

ただのスキルチェックをして、間違いを訂正しているだけなのに。
エンジニアで言うなら、このコードはこう書いたらバグ出ないよね?と言ってるだけです。

ただ、思考法はスポーツとよく似ていて、
頭(体)になじませる間は習得状況が分かり辛いという分析スキルとは大きな違いがあります。

意識しなくてもできるレベルを目指している思考法と、
本を見ても何でもいいから、とりあえず再現ができればいい分析スキルと習得難易度は違います。
その前提を理解してからすると、挫折しにくいはずです!

思考法の勉強、始めてみませんか?

-データサイエンス

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

[Meisyo]今後やっていきたいこと

Meisyoで今年中にやっておきたいこと これさえやればDAU(日ごとのアクティブユーザ)が100人を超えるのでは?と思います。 まずは目的・内容を書いて、理由と考察を書きます。 目的 ユーザがゲーム …

[Python]決定木(CHAID)のテストと可視化

意思決定のために使用される決定木分析 Scikit-learnでの決定木にはCART(指標:giniまたはentropy)他が採用されています。 CARTは下記の2点を含め、さまざまな理由から使われて …

[Meisyo]パラメータバランス調整 ver 0.10(a)

パラメータバランスを調整します。 理由としては、ミートが強すぎるからです。 ミートが神の地位を手に入れて早・・・というより、Meisyoが最初からそうだった。 「ミートを上げれば即ち打てる」で、パワー …

[Kaggle] Titanic 約80% by ランダムフォレスト

実力不足感が否めませんが、Kaggleのチュートリアル的なTitanicにおいてランダムフォレストで正答率約80%を出せたのでコードを載せておきます。 Colaboratory 実施期間:2019/0 …

ヒストグラムの階級数を決める方法論

データ分析業務ははっきり言って泥臭い。 分析の設計を行い、可視化を行ってから使えるデータかどうか判断できる。 そもそもそれはデータ分析前の話なのだが。 今回は、可視化の中でもデータの傾向を把握するのに …