データウェアハウスとは?わかりやすく解説

優れたデータを蓄積し、迅速な意思決定に欠かせないのがDWH(データウェアハウス)です。



本記事では、次のことがわかります。

・データウェアハウスとは何かわかる
・データウィエアハウスの特徴がわかる
・スタースキーマとは何かがわかる

データウェアハウス


データウェアハウスは、発生したデータを時系列で保存しておき、後で分析に使うデータ倉庫です。

データウェアハウスは、DWHとも略されます。

ビックデータと似ているね。
何が違うんだろう?


ビックデータというと、Key-Value Store(KVS)などのRDB以外を指しますが、RDBで扱う場合はデータウェアハウスというのが一般的です。


RDB以外の仕組みで扱う場合は、NoSQLで操作するよ。
SQLはRDBを操作するための言語だからね。

Key-Value Store
Key値とValue値を対応付けてデータを格納する方法。KVSとも呼ぶ。


データウェアハウスではデータ加工などをせず、時系列のままにとにかくそのまま蓄えます。




データウェアハウスの特徴

データウェアハウスの特徴は、3つあります。

  • 時系列:一度蓄積したら通常更新されない
  • 膨大な量のデータ
  • 巨大なデータベース



データマート

データウェアハウスから必要な情報を抜き出して作ったものをデータマートと呼びます。

分析に使わないデータはデータマートには置きません。

データマイニング

データを分析して、これまでの気づかなかった関係性などを見出すことをデータマイニングと呼びます。




データウェアハウスで使われる代表的なスキーマ

スタースキーマ

スタースキーマは、2つのテーブルから構成されます。

  1. ファクトテーブル(事実表):業務遂行時に発生したデータを登録するテーブル。分析の中心になる。
  2. ディメンションテーブル(次元表):分析の切り口になるデータを登録するテーブル。


中心にファクトテーブルがあり、周りにディメンションテーブルがある構造になっています



スノーフレークスキーマ

各ディメンションテーブルを詳細化して作ったスキーマを、スノーフレークスキーマと呼びます。

データウェアハウスの操作

分析手法は、3種類あります。

  1. ダイシング:見る視点を変えて構造を変えること。軸を変えてプロッティングする。分析する軸を入れ替える。
  2. スライシング:特定の値に着目して切り出す。
  3. ドリリング:軸の詳細度を変える
    1. ドリルダウンはズームアップ、詳細化。
    2. ドリルアップはズームダウン。全体像。



まとめ

  • データウェアハウスは、データの貯蔵庫
  • スタースキーマは、ディメンションテーブル・ファクトテーブルの2つから構成される
  • 操作はダイシング、スライシング、ドリリングの3種類がある