データ分析エンジニアが語る、データ分析サイトの構築ポイント
1. データ分析のニーズ
「社内外にあるデータを分析して活用したい」
こう考える方は多いのではないでしょうか。データ分析エンジニアである私のところにも、こういったご相談を多くいただきます。
特に社内にはサイロ化したデータが多く存在すると言われています。このサイロ化したデータを "統合" し、目的に合わせて "分析" し、使いやすく "可視化" することで、ビジネスの課題解決や情報共有に大いに役に立てることができます。
このコラムでは、データ分析エンジニアの視点でデータを分析して活用するためポイントをお話ししたいと思います。
2. 短期間でもデータ分析は可能
新型コロナウイルスが猛威を振るっていた2020年9月下旬、厚生労働省が主導して新型コロナウイルスの感染状況を国民向けに公開するプロジェクトが立ち上がりました。
当時、どのニュース番組でも新型コロナウイルスの話題ばかりでしたし、国民の関心は日々の感染者数増減に集中していました。このような背景から、プロジェクト開始の2ヶ月後には新型コロナウイルスに関する情報公開サイトをオープンする、超短期間のプロジェクトに私はリーダーとして参画し、無事11月には「データからわかる-新型コロナウイルス感染症情報-」サイトの公開に漕ぎ着けました。
このサイトでは全国または都道府県ごとに色々な観点での感染者動向が集計されており、集計期間を変えて見ることで感染傾向を把握するためのデータ分析にも活用できるようになっています。
※1出典:厚生労働省
「データからわかる-新型コロナウイルス感染症情報-」
https://covid19.mhlw.go.jp/※2本ページに掲載している画像は、2022年4月20日現在のものです。
たった2ヵ月でデータ分析と情報を公開するサイト(システム)ができるのだろうか?
ITシステムの構築や導入に関わった方は、この難しさにピンと来るかも知れません。
確かに、会計や販売管理などの業務システムなどでは、この短期間でサイト(システム)を開発することは難しいと言わざるを得ません。しかし、データ分析はポイントさえしっかりと押さえれば、短期間でもサイト(システム)の開発は可能です。
3. データ分析サイトを構築する時のポイント
データ分析を行うには、何が必要なのでしょうか。
データ分析エンジニアとして、多くのお客様をサポートさせていただいた立場として、また自身でも超短期間でデータ分析サイトを構築した経験から、このポイントをまとめてみたいと思います。
ポイント①
何を分析したいか、可視化したいかを決める
データ分析の検討を進めると、あれもこれもとなりがちですが、データ分析は最初から多くのことを実現しようとせず、スモールスタートで立ち上げることが重要だと考えます。
例えば、前述した新型コロナウイルス感染症情報では、徹底的にコロナ感染状況の可視化に集中しています。"コロナ感染状況(最新情報と推移)を可視化する" ことに集中し、検討に掛かる時間を短縮することができています。
ポイント②
データの在り処とデータの流れを定義する
当たり前のことですが、元データが無いことにはデータ分析は行えません。
ポイント①で決めた分析の目的を実現するために、どんなデータを集めてこなければならないのか? そのデータは手元にあるデータなのか、あるいはオープンデータなのか、それとも社内の別部署が保有しているデータなのか? という点を整理する必要があります。
さらにそのデータがExcelなのかデータベースなのか、更新の頻度はどの程度なのか? データオーナーは誰なのか? といった点も同時に見極めていく必要があります。この見極めはデータ分析サイトの構築において非常に重要であるとともに、難易度が高い部分になります。
ポイント③
データ分析ツールを選定する
データ分析ツールは、数多くの製品が販売されています。
この中で自社に合うツールを選定するのは、かなり難しいのでは無いかと思います。
弊社では、QlikTech社の"Qlik Sense"と言うBI製品を扱っていますが、ツールを選定する時には、次のような選定基準で選んでみてはどうでしょうか。
リアルタイムなデータ統合機能があること
様々なデータソースに対応していることは当然ですが、クラウドやオンプレミス環境に点在するデータをリアルタイムにデータ統合、つまりデータを集計・加工する機能が必要になる場合があります。
ひとつ目はデータの鮮度が重要になるケースです。たとえば購買データを分析してマーケティングに活用しようとするとき、売上や購買、在庫のデータはできるだけ鮮度の高いデータである必要があります。
下図の例では、業務に影響を与えないように別サーバーにデータを移動し日次バッチでデータ集計をするため、分析用のデータが出来上がるのはどうしても1日遅れになってしまいます。
BIツールを使うことで、リアルタイムのデータ連携が可能となり、「いま何が起きているか?」を知ることができます。日々変化するデータが早く正確に反映されていれば、データドリブンな正しい意思決定ができるようになるのです。
ふたつ目は障害が発生したケースです。日次処理中にシステム障害が発生した場合、障害復旧に1日、集計などのデータ加工にさらに1日かかり、分析用データが見られるのは2日遅れになってしまいます。
もしリアルタイムでデータ連携がされていれば、障害復旧した段階ですぐに分析用データを見られるようになり、業務への影響を最小限に抑えることができます。
データ探索機能があること
一般的にドリルダウンが可能な「クエリーベース」での分析では左側の図のようにデータを絞り込みます。
これに対して、「データ探索」による分析では右側の図のように全てのデータを俯瞰しながらデータを分析することができます。
"データ探索" は、当初要件以外のデータの切り口から分析することにより、新たな気づきにつながるというメリットもあります。
具体的な例を見てみましょう。上段が「データ探索」でのデータ見え方、下段が「クエリーベース」でのデータの見え方を表わしています。いずれも全てのデータが見えている状態です。ここで[顧客クラス]が "プラチナ" のデータを選択してみましょう。
上段の「データ探索」では、選択した "プラチナ" 以外のデータも見えているのに対して、下段の「クエリーベース」では、データを絞り込むため選択した "プラチナ" 以外のデータは関連データも含めて見えなくなってしまいました。
この "データ探索" の活用例として、次のようなことが考えられます。
上図のようなデータで、もしグレー部分に欠損値や異常値が存在した場合、クエリーベースのツールでは欠損値や異常値に気づくことができず正しく分析できなくなる可能性があります。データ分析においては、常にデータを俯瞰的に探索することが重要となります。
まとめ
いかがでしたでしょうか。
"データ分析" 、"データ活用" と聞くと難しい印象をお持ちの方も多いかも知れませんが、やりたいことを明確にして、しっかりとデータ構成を考え、自社に合う分析ツールを選定すれば、意外と簡単に、短期間で実現することは可能です。
弊社では、長年、データ分析ツールとしてセルフサービス型分析プラットフォーム 「Qlik Sense」を取り扱い、多くのお客様に導入してきた経験と実績があります。
また、データ分析のコンサルティングやシステム開発でも強力にサポートさせていただいています。
"データ分析" 、"データ活用" でお困りことがあれば、お気軽にお問い合わせいただければ幸いです。