インサイトラボ新潟Blog

【DX】データを理解したい #2 データはどこに存在している?

作成者: rice|2026年4月13日

こんにちは、riceです。

データを理解したいシリーズ#1「データとは何か」では、データと情報の定義、そしてデータがどのように価値へと変わるのかを、DIKWモデルの流れに沿ってご紹介しました。

今回はその続きとして「データはどこに存在しているのか」をテーマにしてみたいと思います。

「データ活用が重要」とよく言われますが、そもそもデータはどこにあり、どのような形で存在し、どのように生まれているのかという基礎部分を整理してみます。

 

データはどこに存在している?

データは、私たちが想像している以上に多くの場所に存在しています。
ここでは「業務システム」「インターネット」「日常生活」という3つの視点で見ていきます。

業務システムの中

企業が日々の業務を行う過程では、様々なシステムにデータが蓄積されています。

  • 販売管理システム:受注・売上・在庫のデータ

  • 会計、財務システム:経費・売掛金・仕訳データ

  • CRMシステム(顧客関係管理):顧客情報・商談情報・対応記録

  • POSレジ:販売時点での商品・金額・時間帯のデータ

  • ERPシステム(基幹業務):生産・購買・人事などを一元管理するデータ

これらは業務を遂行するために入力・記録されたデータであり、多くの企業にとって最も身近なデータと言えます。

 

インターネット上

インターネット上にも大量のデータが存在しています。

  • SNS投稿(テキスト・画像・動画・コメント)

  • Webサイトへのアクセスログ(閲覧日時やページ履歴)

  • ECサイトの購買データ

  • ニュース記事やブログなどのテキストデータ

  • 地図・位置情報データ


ここで少し深堀してみましょう。
「インターネット上のデータ」は実際にはどこにあるのでしょうか?

クラウドサービスを利用すると、データは目に見えない場所に保存されているように感じます。しかし実際には、世界各地に存在する物理的なサーバーに保管されています。

Google Cloud や Microsoft Azure では、世界各地にデータセンターを設置し、「リージョン(地域)」と「ゾーン(データセンター群)」という単位で管理しています。

つまり「クラウド上にあるデータ」は、特定の国や地域の物理的な施設に存在しています。

 

日常生活の中

職場やインターネットだけではなく、日常生活の中にもデータは存在しています。

  • スマートフォンの利用履歴(通話・アプリ・位置情報)

  • 交通系ICカード(Suicaなど)の乗降記録

  • 医療機関の診療記録や健康診断結果

  • スマートウォッチや健康アプリからの歩数・心拍数・睡眠データ

  • 防犯カメラや監視カメラの映像



こうしてみると私たちは毎日意識せずに、データを生み出しながら生活していることに気付きます。


データはどんな形で存在しているのか


データは一種類ではなく、形式によって大きく3つに分類されます。

  • 構造化データ

あらかじめ決まった形式(表形式など)で整理されたデータです。
Excelの表、データベース上の顧客リスト、売上管理表などが該当します。コンピュータで検索・集計がしやすく、分析に適している点が特徴です。

  • 非構造化データ

決まった形式がなく、自由な形で存在するデータです。
テキスト・画像・動画・音声ファイルなどが該当し、近年ではデータの多くが、この非構造化データだと言われています。

 

  • 半構造化データ

Excelのような決まった表形式ではないものの、一定のルールに従って書かれているデータです。
代表的な形式として、JSONとXMLがあります。

これらは、API(アプリケーション同士をつなぐ仕組み)で広く利用されており、例えば天気予報アプリが気象データを取得する場合や、ECサイトが在庫情報を確認するときなどに使われています。

 

データはどのように生まれるのか

データは主に以下の方法で生まれます。

人が意図的に入力する

  • フォームやアンケートへの回答

  • システムへの受注、顧客情報の入力

  • SNSへの投稿、レビューの書き込み


人間が主体となって作成するデータです。目的に合わせた情報を収集しやすい反面、入力漏れやミスが発生することもあります。

機械が自動的に記録する

  • センサーが収集する温度、湿度、振動のデータ

  • Webサーバーのアクセスログ

  • 防犯カメラが撮影する映像データ

  • スマートフォンや小型デバイスが収集する行動データ


人の手を介さず自動で記録されるため、データを大量かつ継続的に取得できる点が特徴です。IoT(様々なモノがインターネットに接続する技術・仕組み)の普及により、こうした自動記録データは急速に増えています。さらに近年では、各種センサーやカメラを搭載したエッジデバイスが、収集したデータをその場で処理・判断する仕組みも普及しつつあります。

 

人の行動から生まれる

  • スマートフォンの位置情報

  • ECサイトの閲覧、購買の履歴

  • 交通系ICカードの利用履歴


これらは、人が何かを行う結果として生まれるデータです。本人が意識していなくても記録されるという特性があります。

 

データを集めるとは何を指すのか

「データを集める」とは単に情報を集めるだけではありません。実際には、次のような一連のプロセスを指します。


①目的を決める
「何のためにデータが必要か」を明確にします。目的がないままデータを集めても、あとで活用できないという事態になりかねません。

②収集方法を選ぶ
目的に応じて、アンケート・センサー・ログ収集・公開データの活用など、適切な方法を選びます。

③収集・蓄積する
実際にデータを取得し、扱いやすい形で保存します。バラバラな状態では分析ができないため、データベースへの格納やファイル形式の統一なども含まれます。複数の異なるシステムからデータを集める場合は、それぞれの形式や構造が異なることが多く、ただ「集める」だけでは活用できません。

④整理・加工する
収集したデータには、重複・欠損・入力ミスなどが含まれることがあります。クレンジングと呼ばれる整理・加工の作業を行い、分析できる状態に整えます。


この一連の流れは「ETL」という概念で体系化されています。
ETLとは、Extract(抽出)・Transform(変換)・Load(ロード)の頭文字を取ったもので、複数のデータソースからデータを抽出し、目的に合った形に変換・加工したうえで、分析に使うデータウェアハウス(データの倉庫)などに格納するプロセスを指します。

データを集めるとは単なる入手にとどまらず、目的設定から整理・加工までを含むプロセス全体を意味します。



参考資料:IBM What is ETL
参考資料:Microsoft Azure Data Residency in Azure
参考資料:Getting Started with Edge AI on NVIDIA Jetson
参考資料:Google Cloud Documentation 地域とリージョン




おわりに

今回は「データはどこに存在しているのか」というテーマから、データの形式・生まれ方・集め方を整理しました。
「データがどこにあり、どのように生まれているのか」はとても基礎的な部分ですが、データやデータ活用を理解するうえで大切な視点ではないでしょうか。

次回以降も、引き続きデータに関するテーマをご紹介していけたらと思います。