べき分布に従うビジネスデータはクラスタリングで「等質化」しよう

データサイエンティスト養成読本 機械学習入門編 (Software Design plus)

データサイエンティスト養成読本 機械学習入門編 (Software Design plus)

べき分布に従うビジネスデータ

f:id:ekanoh:20180710003917p:plain

  • べき分布
    • サンプルのほとんどがゼロの値を取るが、ごく一部のサンプルは極端な値を取るような分布
    • eg) アプリのアクティブ率分布や、国民の資産の分布など

ビジネスやマーケティングで使われるデータはべき分布になっていることが多く、 このようなデータの全体に対して分析をかけるのは往々にして難易度が高く、うまくいかないことがある。

たとえば、アプリのユーザーを課金額ごとに「ヘビー」「ミドル」「ライト」に分けることを想像してみると、 「ヘビー」と「ライト」層であまりにも挙動が異なっていたり、 「ライト」ユーザーにはそもそもパターンが存在しないことも考えられるだろう。

このような場合だと、全体に対してデータ解析をしても有意義な結果が得られない。

したがって、べき分布に従っているビジネスデータを、「等質な」クラスタにセグメンテーションすることを考える。

「等質化」の視点

何について「等質」なのか?

  1. 大きさ
    • 生の説明変数の「量」をそのまま使う
      • ex. 「課金額」がxx円以上
    • 説明変数をスケーリングして、定義域を揃える
      • ex. 「保有しているアイテム数」と「ゲーム内フレンド数」の比が2:1
  2. 特徴的な傾向
    • 主成分分析を行って特徴量を取り出す
      • ex. 10×「保有しているアイテム数」+2×「課金回数」がxx以上

の3種類の注目ポイントがある。 著者によると主成分分析を行って「特徴的な傾向」を見るとよい場合が多いとのこと。

よいクラスタリングとは?

ここで、クラスタリングにおいてどういうものが「よい」と言えるのか?

  • → ビジネスにおいては、KPIに差が出る分け方である。
    • ex) どんな行動をしたユーザが売上増加しているのか、継続しているか?
    • 統計的に上手く分離出来ていても、KPIに差がない場合は役に立たない!

※「KPIに差が出る」の判断

  • 予測モデルを構築する
    • クラスタを説明変数、KPIを目的変数にした教師あり学習
    • eg)決定木、ランダムフォレスト、SVM
user_id pca.3.cluster pca.4.cluster pca.5.cluster prop.3.cluster CVR
10 2 3 3 1 20
15 1 2 1 2 10

たとえば、上記のようなテーブルを構築し、CVRを予測するような決定木を実行すると、 「pca.5.clusterが最もCVRに寄与している」ということがわかる。

等質なデータで分析をしよう

KPIに寄与する「等質な」データを得られたあとは、 それぞれのクラスタに対して、一般的な統計手法・分析が上手くいきやすい!

たとえば、

  • セグメント毎に予測モデルを構築
    • eg)線形回帰、ランダムフォレスト、SVMなど
  • セグメント毎のその他の傾向を分析する

などを行っていけばよい。