こんにちは、riceです。
データを理解したいシリーズ#1「データとは何か」では、データと情報の定義、そしてデータがどのように価値へと変わるのかを、DIKWモデルの流れに沿ってご紹介しました。
今回はその続きとして「データはどこに存在しているのか」をテーマにしてみたいと思います。
「データ活用が重要」とよく言われますが、そもそもデータはどこにあり、どのような形で存在し、どのように生まれているのかという基礎部分を整理してみます。
データは、私たちが想像している以上に多くの場所に存在しています。
ここでは「業務システム」「インターネット」「日常生活」という3つの視点で見ていきます。
企業が日々の業務を行う過程では、様々なシステムにデータが蓄積されています。
販売管理システム:受注・売上・在庫のデータ
会計、財務システム:経費・売掛金・仕訳データ
CRMシステム(顧客関係管理):顧客情報・商談情報・対応記録
POSレジ:販売時点での商品・金額・時間帯のデータ
ERPシステム(基幹業務):生産・購買・人事などを一元管理するデータ
これらは業務を遂行するために入力・記録されたデータであり、多くの企業にとって最も身近なデータと言えます。
インターネット上にも大量のデータが存在しています。
SNS投稿(テキスト・画像・動画・コメント)
Webサイトへのアクセスログ(閲覧日時やページ履歴)
ECサイトの購買データ
ニュース記事やブログなどのテキストデータ
地図・位置情報データ
ここで少し深堀してみましょう。
「インターネット上のデータ」は実際にはどこにあるのでしょうか?
クラウドサービスを利用すると、データは目に見えない場所に保存されているように感じます。しかし実際には、世界各地に存在する物理的なサーバーに保管されています。
Google Cloud や Microsoft Azure では、世界各地にデータセンターを設置し、「リージョン(地域)」と「ゾーン(データセンター群)」という単位で管理しています。
つまり「クラウド上にあるデータ」は、特定の国や地域の物理的な施設に存在しています。
職場やインターネットだけではなく、日常生活の中にもデータは存在しています。
スマートフォンの利用履歴(通話・アプリ・位置情報)
交通系ICカード(Suicaなど)の乗降記録
医療機関の診療記録や健康診断結果
スマートウォッチや健康アプリからの歩数・心拍数・睡眠データ
防犯カメラや監視カメラの映像
こうしてみると私たちは毎日意識せずに、データを生み出しながら生活していることに気付きます。
データは一種類ではなく、形式によって大きく3つに分類されます。
構造化データ
あらかじめ決まった形式(表形式など)で整理されたデータです。
Excelの表、データベース上の顧客リスト、売上管理表などが該当します。コンピュータで検索・集計がしやすく、分析に適している点が特徴です。
非構造化データ
決まった形式がなく、自由な形で存在するデータです。
テキスト・画像・動画・音声ファイルなどが該当し、近年ではデータの多くが、この非構造化データだと言われています。
半構造化データ
Excelのような決まった表形式ではないものの、一定のルールに従って書かれているデータです。
代表的な形式として、JSONとXMLがあります。
これらは、API(アプリケーション同士をつなぐ仕組み)で広く利用されており、例えば天気予報アプリが気象データを取得する場合や、ECサイトが在庫情報を確認するときなどに使われています。
データは主に以下の方法で生まれます。
フォームやアンケートへの回答
システムへの受注、顧客情報の入力
SNSへの投稿、レビューの書き込み
人間が主体となって作成するデータです。目的に合わせた情報を収集しやすい反面、入力漏れやミスが発生することもあります。
センサーが収集する温度、湿度、振動のデータ
Webサーバーのアクセスログ
防犯カメラが撮影する映像データ
スマートフォンや小型デバイスが収集する行動データ
人の手を介さず自動で記録されるため、データを大量かつ継続的に取得できる点が特徴です。IoT(様々なモノがインターネットに接続する技術・仕組み)の普及により、こうした自動記録データは急速に増えています。さらに近年では、各種センサーやカメラを搭載したエッジデバイスが、収集したデータをその場で処理・判断する仕組みも普及しつつあります。
スマートフォンの位置情報
ECサイトの閲覧、購買の履歴
交通系ICカードの利用履歴
これらは、人が何かを行う結果として生まれるデータです。本人が意識していなくても記録されるという特性があります。
「データを集める」とは単に情報を集めるだけではありません。実際には、次のような一連のプロセスを指します。
①目的を決める
「何のためにデータが必要か」を明確にします。目的がないままデータを集めても、あとで活用できないという事態になりかねません。
②収集方法を選ぶ
目的に応じて、アンケート・センサー・ログ収集・公開データの活用など、適切な方法を選びます。
③収集・蓄積する
実際にデータを取得し、扱いやすい形で保存します。バラバラな状態では分析ができないため、データベースへの格納やファイル形式の統一なども含まれます。複数の異なるシステムからデータを集める場合は、それぞれの形式や構造が異なることが多く、ただ「集める」だけでは活用できません。
④整理・加工する
収集したデータには、重複・欠損・入力ミスなどが含まれることがあります。クレンジングと呼ばれる整理・加工の作業を行い、分析できる状態に整えます。
この一連の流れは「ETL」という概念で体系化されています。
ETLとは、Extract(抽出)・Transform(変換)・Load(ロード)の頭文字を取ったもので、複数のデータソースからデータを抽出し、目的に合った形に変換・加工したうえで、分析に使うデータウェアハウス(データの倉庫)などに格納するプロセスを指します。
データを集めるとは単なる入手にとどまらず、目的設定から整理・加工までを含むプロセス全体を意味します。
参考資料:IBM What is ETL
参考資料:Microsoft Azure Data Residency in Azure
参考資料:Getting Started with Edge AI on NVIDIA Jetson
参考資料:Google Cloud Documentation 地域とリージョン
おわりに
今回は「データはどこに存在しているのか」というテーマから、データの形式・生まれ方・集め方を整理しました。
「データがどこにあり、どのように生まれているのか」はとても基礎的な部分ですが、データやデータ活用を理解するうえで大切な視点ではないでしょうか。
次回以降も、引き続きデータに関するテーマをご紹介していけたらと思います。