【DX】データを理解したい #2 データはどこに存在している？

作成者: rice｜2026年4月13日

こんにちは、riceです。

データを理解したいシリーズ#1「データとは何か」では、データと情報の定義、そしてデータがどのように価値へと変わるのかを、DIKWモデルの流れに沿ってご紹介しました。

今回はその続きとして「データはどこに存在しているのか」をテーマにしてみたいと思います。

「データ活用が重要」とよく言われますが、そもそもデータはどこにあり、どのような形で存在し、どのように生まれているのかという基礎部分を整理してみます。

データはどこに存在している？

データは、私たちが想像している以上に多くの場所に存在しています。
ここでは「業務システム」「インターネット」「日常生活」という3つの視点で見ていきます。

業務システムの中

企業が日々の業務を行う過程では、様々なシステムにデータが蓄積されています。

販売管理システム：受注・売上・在庫のデータ

会計、財務システム：経費・売掛金・仕訳データ

CRMシステム（顧客関係管理）：顧客情報・商談情報・対応記録

POSレジ：販売時点での商品・金額・時間帯のデータ

ERPシステム（基幹業務）：生産・購買・人事などを一元管理するデータ

これらは業務を遂行するために入力・記録されたデータであり、多くの企業にとって最も身近なデータと言えます。

インターネット上

インターネット上にも大量のデータが存在しています。

SNS投稿（テキスト・画像・動画・コメント）

Webサイトへのアクセスログ（閲覧日時やページ履歴）

ECサイトの購買データ

ニュース記事やブログなどのテキストデータ

地図・位置情報データ

ここで少し深堀してみましょう。
「インターネット上のデータ」は実際にはどこにあるのでしょうか？

クラウドサービスを利用すると、データは目に見えない場所に保存されているように感じます。しかし実際には、世界各地に存在する物理的なサーバーに保管されています。

Google Cloud や Microsoft Azure では、世界各地にデータセンターを設置し、「リージョン（地域）」と「ゾーン（データセンター群）」という単位で管理しています。

つまり「クラウド上にあるデータ」は、特定の国や地域の物理的な施設に存在しています。

日常生活の中

職場やインターネットだけではなく、日常生活の中にもデータは存在しています。

スマートフォンの利用履歴（通話・アプリ・位置情報）

交通系ICカード（Suicaなど）の乗降記録

医療機関の診療記録や健康診断結果

スマートウォッチや健康アプリからの歩数・心拍数・睡眠データ

防犯カメラや監視カメラの映像

こうしてみると私たちは毎日意識せずに、データを生み出しながら生活していることに気付きます。

データはどんな形で存在しているのか

データは一種類ではなく、形式によって大きく3つに分類されます。

構造化データ

あらかじめ決まった形式（表形式など）で整理されたデータです。
Excelの表、データベース上の顧客リスト、売上管理表などが該当します。コンピュータで検索・集計がしやすく、分析に適している点が特徴です。

非構造化データ

決まった形式がなく、自由な形で存在するデータです。
テキスト・画像・動画・音声ファイルなどが該当し、近年ではデータの多くが、この非構造化データだと言われています。

半構造化データ

Excelのような決まった表形式ではないものの、一定のルールに従って書かれているデータです。
代表的な形式として、JSONとXMLがあります。

これらは、API（アプリケーション同士をつなぐ仕組み）で広く利用されており、例えば天気予報アプリが気象データを取得する場合や、ECサイトが在庫情報を確認するときなどに使われています。

データはどのように生まれるのか

データは主に以下の方法で生まれます。

人が意図的に入力する

フォームやアンケートへの回答
システムへの受注、顧客情報の入力
SNSへの投稿、レビューの書き込み

人間が主体となって作成するデータです。目的に合わせた情報を収集しやすい反面、入力漏れやミスが発生することもあります。

機械が自動的に記録する

センサーが収集する温度、湿度、振動のデータ
Webサーバーのアクセスログ
防犯カメラが撮影する映像データ
スマートフォンや小型デバイスが収集する行動データ

人の手を介さず自動で記録されるため、データを大量かつ継続的に取得できる点が特徴です。IoT（様々なモノがインターネットに接続する技術・仕組み）の普及により、こうした自動記録データは急速に増えています。さらに近年では、各種センサーやカメラを搭載したエッジデバイスが、収集したデータをその場で処理・判断する仕組みも普及しつつあります。

人の行動から生まれる

スマートフォンの位置情報
ECサイトの閲覧、購買の履歴
交通系ICカードの利用履歴

これらは、人が何かを行う結果として生まれるデータです。本人が意識していなくても記録されるという特性があります。

データを集めるとは何を指すのか

「データを集める」とは単に情報を集めるだけではありません。実際には、次のような一連のプロセスを指します。

①目的を決める
「何のためにデータが必要か」を明確にします。目的がないままデータを集めても、あとで活用できないという事態になりかねません。

②収集方法を選ぶ
目的に応じて、アンケート・センサー・ログ収集・公開データの活用など、適切な方法を選びます。

③収集・蓄積する
実際にデータを取得し、扱いやすい形で保存します。バラバラな状態では分析ができないため、データベースへの格納やファイル形式の統一なども含まれます。複数の異なるシステムからデータを集める場合は、それぞれの形式や構造が異なることが多く、ただ「集める」だけでは活用できません。

④整理・加工する
収集したデータには、重複・欠損・入力ミスなどが含まれることがあります。クレンジングと呼ばれる整理・加工の作業を行い、分析できる状態に整えます。

この一連の流れは「ETL」という概念で体系化されています。
ETLとは、Extract（抽出）・Transform（変換）・Load（ロード）の頭文字を取ったもので、複数のデータソースからデータを抽出し、目的に合った形に変換・加工したうえで、分析に使うデータウェアハウス（データの倉庫）などに格納するプロセスを指します。

データを集めるとは単なる入手にとどまらず、目的設定から整理・加工までを含むプロセス全体を意味します。

参考資料：IBM What is ETL
参考資料：Microsoft Azure Data Residency in Azure
参考資料：Getting Started with Edge AI on NVIDIA Jetson
参考資料：Google Cloud Documentation 地域とリージョン

おわりに

今回は「データはどこに存在しているのか」というテーマから、データの形式・生まれ方・集め方を整理しました。
「データがどこにあり、どのように生まれているのか」はとても基礎的な部分ですが、データやデータ活用を理解するうえで大切な視点ではないでしょうか。

次回以降も、引き続きデータに関するテーマをご紹介していけたらと思います。

完全な記事を表示