こんにちは、riceです。
データを理解したいシリーズ#2「データはどこに存在しているのか」では、データの形式や生まれ方、そして "データを集める"とはどういうことかを整理しました。
今回はその続きとして「良いデータ・悪いデータとは何か」をテーマにしてみたいと思います。
「データ活用が重要」「データをもとに意思決定を」という言葉をよく耳にするようになりました。しかし、集めたデータがそのまま役立つとは限りません。データの「質」が低ければ、どれだけ分析をしても正しい判断には繋がらないことがあります。
では、良いデータ・悪いデータとは、いったいどのようなものなのでしょうか?
データ品質(データクオリティ)とは
まず、良いデータと悪いデータを語るうえで欠かせないのが「データ品質(Data Quality)」という考え方です。
データ品質とは、「あるデータが特定の目的に対してどれだけ適合しているか」を示すものです。
ここで大切なのは、「きれいに整っているかどうか」だけが品質を決めるわけではない、という点です。正確なデータであっても、目的に合っていなければ活用できないことがあります。データの品質は「目的に使えるかどうか」という視点で判断されます。
例えば、5年前の顧客データは正確に記録されていたとしても、現在の顧客動向を分析する目的では「古くて使えない」という点で品質が低いと言えます。
良いデータを測る6つの視点
データ管理の国際的な考え方としてDAMA関連の資料などでは、データ品質を評価するための6つの視点がよく紹介されています。
これらを押さえることで、データが「良い状態か」を具体的に評価できるようになります。
① 正確性(Accuracy)
データが現実の内容を正しく反映しているか?
例) ・顧客の住所が実際と異なる
・商品の価格が入力ミスで誤っている
こうした誤りがあると、分析結果や判断も間違ったものになってしまいます。
② 完全性(Completeness)
必要な項目が漏れなく揃っているかどうか?
例) ・アンケートの回答に空欄が多い
・顧客データに電話番号が入っていない
必要な情報が欠けているデータは、分析や業務で活用しにくくなります。
③ 一貫性(Consistency)
複数のシステムや部署で管理されているデータに矛盾がないかどうか?
例)会計システムでは「1,000円」、販売管理では「1,200円」と、同じ商品の価格が違っている
複数の部署やシステムで同じデータが管理されている場合は、特に注意が必要です。
④ 適時性(Timeliness)
データが最新であり、必要なタイミングで利用できる状態にあるかどうか?
例) ・退職した社員の情報がそのまま残っている
・商品の在庫データが昨日のまま更新されていない
時間が経つにつれて現実と乖離したデータは、判断を誤らせる原因になります。
⑤ 一意性(Uniqueness)
同じデータが重複なく存在しているかどうか?
例) ・同じ顧客が名前の表記違いで2件登録されている
・同じ商品が別のIDで二重に登録されている
データの重複は分析の誤差につながる原因になります。
⑥ 有効性(Validity)
データが定められた形式やルールに沿っているかどうか?
例) ・日付の形式に「2025/01/01」と「2025-01-01」が混在している
・メールアドレスとして正しくない形式になっている
形式が統一されていないとシステムがうまく読み取れなかったり、データの比較・集計ができなくなります。
悪いデータとはどのようなものか
ここまで「良いデータ」を測る視点を見てきました。では、悪いデータ(低品質なデータ)とはどのような状態でしょうか?
先ほどの6つの視点に照らし合わせると、以下のようなものが「悪いデータ」として挙げられます。
必要な項目が空欄になっている(完全性の欠如)
事実と異なる数値や誤字脱字が含まれている(正確性の欠如)
部署やシステム間でデータの値が食い違っている(一貫性の欠如)
古くて現状を反映していない(適時性の欠如)
同じデータが別々に重複して登録されている(一意性の欠如)
入力形式が統一されておらず、正しく処理できない(有効性の欠如)
また、"目的とまったく関係のないデータが大量に混入している"という状態も「悪いデータ」に含まれます。いわゆる「ノイズ」と呼ばれるもので、分析の精度を下げる原因になります。
なぜデータ品質が重要なのか
品質が低いデータを使い続けるとどうなるのでしょうか。
データ活用の世界には「Garbage In, Garbage Out(ゴミを入れれば、ゴミが出てくる)」という有名な表現があります。これは「どれだけ優れた分析手法やAIを使っても、入力するデータの質が低ければ、出力される結果も低品質になる」という原則を指しています。
具体的には、以下のような影響が考えられます。
-
誤った意思決定につながる
データに基づいて判断を行うビジネスの現場では、データが間違っていれば当然、判断も誤った方向に進みます。例えば、在庫数のデータに誤りがあれば、発注のタイミングや量を誤ってしまいます。
-
AIの精度が下がる
生成AIや機械学習(コンピュータが大量のデータから自動的にパターンを学ぶ技術)は、学習させるデータの質に大きく左右されます。誤ったデータや偏ったデータを学習させると、AIも誤った回答や偏った判断を出力するようになってしまいます。
-
業務効率の低下
データの誤りやバラツキを修正する作業(クレンジング)に時間やコストがかかり、本来の業務を圧迫します。品質の低いデータを放置すると、長期的にはより大きなコストを生む可能性があります。
「良いデータ」は目的あってこそ
ここで覚えておきたいのは、データの良し悪しは「目的によって変わる」という点です。
非常に細かく記録された詳細なデータは、専門的な分析を行う場面では役立ちます。一方で、経営者が全体の状況を素早く把握したい場合には情報量が多すぎて、かえって見にくくなってしまうこともあります。
「どんな目的で、誰が使うのか」を意識することが、良いデータを活用するうえでの基本的な考え方になります。
参考資料:IBM データ品質とは
参考資料:DAMA Dimensions of Data Quality
おわりに
今回は「良いデータ・悪いデータとは何か」について、データ品質という視点から整理しました。
データ活用というと「たくさんデータを集めること」が重要だと思われがちですが、実際には“どのようなデータを持っているか”が非常に重要です。
収集したデータが正確で、最新で、一貫性があり、目的に合っているかどうか——こうした「質」への意識が、データ活用の成果を大きく左右するのですね。
次回以降も、引き続きデータに関するテーマをご紹介していけたらと思います。

