優れたデータを蓄積し、迅速な意思決定に欠かせないのがDWH(データウェアハウス)です。
本記事では、次のことがわかります。
・データウェアハウスとは何かわかる
・データウィエアハウスの特徴がわかる
・スタースキーマとは何かがわかる
・データウィエアハウスの特徴がわかる
・スタースキーマとは何かがわかる
データウェアハウス
データウェアハウスとは、発生したデータを時系列で保存しておき、後で分析に使うデータ倉庫です。
データウェアハウスは、DWHとも略されます。
ビックデータと似ているね。
何が違うんだろう?
ビックデータというと、Key-Value Store(KVS)などのRDB以外を指しますが、RDBで扱う場合はデータウェアハウスというのが一般的です。
RDB以外の仕組みで扱う場合は、NoSQLで操作するよ。
SQLはRDBを操作するための言語だからね。
Key-Value Store
Key値とValue値を対応付けてデータを格納する方法。KVSとも呼ぶ。データウェアハウスではデータ加工などをせず、時系列のままにとにかくそのまま蓄えます。
データウェアハウスの特徴
データウェアハウスの特徴は、3つあります。
- 時系列:一度蓄積したら通常更新されない
- 膨大な量のデータ
- 巨大なデータベース
データマート
データウェアハウスから必要な情報を抜き出して作ったものをデータマートと呼びます。
分析に使わないデータはデータマートには置きません。
データマイニング
データを分析して、これまでの気づかなかった関係性などを見出すことをデータマイニングと呼びます。
データウェアハウスで使われる代表的なスキーマ
スタースキーマ
スタースキーマは、2つのテーブルから構成されます。
- ファクトテーブル(事実表):業務遂行時に発生したデータを登録するテーブル。分析の中心になる。
- ディメンションテーブル(次元表):分析の切り口になるデータを登録するテーブル。
中心にファクトテーブルがあり、周りにディメンションテーブルがある構造になっています

スノーフレークスキーマ
各ディメンションテーブルを詳細化して作ったスキーマを、スノーフレークスキーマと呼びます。

データウェアハウスの操作
分析手法は、3種類あります。
- ダイシング:見る視点を変えて構造を変えること。軸を変えてプロッティングする。分析する軸を入れ替える。
- スライシング:特定の値に着目して切り出す。
- ドリリング:軸の詳細度を変える
- ドリルダウンはズームアップ、詳細化。
- ドリルアップはズームダウン。全体像。
まとめ
- データウェアハウスは、データの貯蔵庫
- スタースキーマは、ディメンションテーブル・ファクトテーブルの2つから構成される
- 操作はダイシング、スライシング、ドリリングの3種類がある