ご相談・お問い合わせ
2 分で読むことができます

データ分析にありがちな間違いについて

執筆者 donut 更新日時 2022年8月10日

こんにちは、donutです。

今回のブログでは、先月7月末にオンラインで開催されたヤフー主催のセミナーへ
参加してきましたのでこちらについて触れていきたいと思います。

Yahoo! JAPAN DATA CAMP 2022

主なセッションについて

「データを活用する一歩目」、「データと社会情勢」、「データ活用の現場報告」と、
データとの心理的な距離を縮め、データに触れたくなる以下5つのセッションについて
各スピーカーの方から解説頂きました。

 ①【キーノート】データを活用できる組織、活用できない組織
 ②データアナリストが紹介するデータ活用のコトハジメ
 ③データ分析のプロが教える、間違いだらけのデータ分析
 ④社会情勢とトレンドから探るデータ活用成功への道筋
 ⑤USJが取り組むデータ活用の最前線


このうち、「③データ分析のプロが教える、間違いだらけのデータ分析」について簡単にご紹介したいと思います。

データ分析で生じがちな間違い

このセッションでは「検出されたデータを読み解き、分析した際に少しでも違和感を抱けるか否か?」が
データと向き合うために重要なスキルになること、そして分析時にありがちな6つの間違いについてお話いただきました。

順を追って解説をしていきましょう。

(1)分析結果や元のデータを疑うことは無い
(2)母数を気にしたことがない。
(3)数値は上がれば良く、下がれば悪いと思っている
(4)差が出ない分析報告は意味はないと思っている
(5)アンケート分析レポートの設問を気にしたことがない
(6)ビッグデータがあれば何でも解決できると思っている

  (1)分析結果や元のデータを疑うことは無い
   →元のデータを疑う必要がある理由について、主に以下が挙げられています。

    ・元のデータが誤っている可能性がある。
    ・集計の単純ミス、転記ミスやずれ。
    ・資料作成者が意図的に伝えたいところを隠している可能性があるなど
  
    また、「与えられたデータが本当に正しいのか?」を計算することも重要です。
    →例えば、構成割合の場合、「合計して100%になるか?」「母数が与えられている場合、
     きちんとその数値になるか?」を計算するだけでもデータの見方が大きく変わります。

  (2)母数を気にしたことがない。
   →データの量や母数を気にする必要がある理由について、以下が挙げられました。

    ・母数が小さいほど、「1」ずれた時に与える影響が大きくなったり、
    「意味のある差(有意差)」ではない可能性が大きくなる可能性がある。

    特に、割合だけが乗っているグラフの場合は、通常よりも母数を疑う癖をつけるよう
    意識すると良いと言われています。

  (3)数値は上がれば良く、下がれば悪いと思っている
   →個人的見解も含みますが、「データの分析に過度な期待と固定観念を抱いている人」に
    多い可能性が挙げられています。

    例えば、「○○という商品の顧客割合を増やしたい」といった目的でアンケートを実施し、
    下がった結果が出てしまうと、「悪い結果だった!これは駄目だ!」と
    一方的に捉えてしまいがちです。
    しかし、一度はその結果を疑ってみることで、広くとらえた際に結果的に
    プラスになる場合もあります。

    全ての結果に対して「本当にポジティブだったのか?」「ネガティブだったのか?」と、
    立ち止まって確認する癖をつけることで、必然的にそのデータだけでは
    検証することができないため、広くデータを見る癖がついてくるでしょう。
    更にスキルアップをすると「その結果にどのような意味があるのか?」までをデータから
    推測できるようになります。

  (4)差が出ない分析報告は意味はないと思っている
   →差が出なかったテスト結果を「意味のないもの」として流すのではなく、
    一度立ち止まってみることが重要です。
    その主な理由として、以下を挙げています。

    ・差が出なかった結果を報告した場合、ほとんどの人はそこに注目することなく
     流してしまうことが多いが、差がない結果にも重要な意味がある。

    ・差がない結果になった場合、「差がないという重要な事実を得られた」と
     ポジティブにとらえるように視点を変えてみる。
     (データから思わぬ意味を得られる場合があるため)

  (5)アンケート分析レポートの設問を気にしたことがない
   →アンケート調査の結果を読み解くのは、実はとても難しいということを
    理解する必要があります。
    主な理由として、以下が挙げられました。

    ・誰を対象にどうやって集計し、どうまとめ上げるかの
     「分析設計」の大半が人手に委ねられるため。
     →この場合、「設問」を意識することが重要です。アンケート分析の結果は
      「設問」において集計作業者の目的が詰まっていることが多く、
        とても大切な要素になります。
        そして、「この質問はこのような聞き方で良いのか?」
      「選択肢は必要十分だろうか?」を意識してアンケート調査を
        見るようにすると良いでしょう。

  (6)ビッグデータがあれば何でも解決できると思っている
   →ビッグデータは万能ではなく、大・小の規模にかかわらず、出来ることは限定的です。
    その理由として、以下が挙げられています。

    ・ほぼ全てのデータは「ありとあらゆる状態」を記録しているわけではなく、
     「人が設計した欲しい情報のみ」を忠実に記録しているため。
     つまり、「このデータが欲しい」とあらかじめ設定していない限り、
     後から「こんなデータが欲しい!」と言っても適切なデータがない場合の方が
     圧倒的に多いです。

    ・もし、自分がデータ分析において「○○について知りたい」と思った時、
     それを実現するために「適切に設計され、集計されたデータが存在していること」が
     前提条件になります。
     ビッグデータは万能ではなく、様々なパターンと圧倒的なデータ量により、
     目的に対して「近い再現性を持った集計が可能」となる場合があるということです。

 

「データの違和感とありがちな間違い」について解説頂いた今回のセッションでは、
普段自分が感じたり、思い込んでいたデータ活用に関する本質や間違いを的確に突いており、とても印象に残るものでした。
データや分析結果は常に万能ではないこと、データを意識しながら正しく読み取り、
もし違和感を感じたら対処を行い、理解しながら活用することの重要性を改めて学ぶことができました。

Yahoo! JAPAN DATA CAMPで5つのセッションを視聴し、共通していたことは、「データ活用」です。
「データ活用」を重視し、データの見定め方や、対象のデータが将来的に役立つか否かも含めて
各企業で調査に役立てていた印象でした。

データ分析のスキルは一朝一夕では身に付かないため、今後もスキル向上に向けて
日々邁進していきたいところです。

ここまでお読みいただきありがとうございました。

 

donut

執筆者 donut

生まれも育ちも新潟県新潟市。ビッグデータを基盤としたINSIGHT LABのビジョンや新潟の活性化事業に惹かれ、入社。趣味はカフェ巡りとゲーム、水族館にも行きたいです。

 

こちらの記事もおすすめです

3 分で読むことができます。

【DBpedia探索2】新潟県にある新幹線の駅を調べてみる

2 分で読むことができます。

Twitterアカウントロック! ~解除までの道のり~

2 分で読むことができます。

プロ野球を支えるAIとは?WBCで活用された技術についてもご紹介