消費行動の統計モデリング #1:定量分析の意義と効用最大化理論

購買の行動や意思決定にまつわるビッグデータの出現や消費者の多様化が進む中、企業のマーケティング活動においてはミクロな市場に対して理解を深め、的確なインサイトを突いた訴求を実現することが求められています。SEEDATAでは定性的なリサーチに加え、統計モデルを駆使した消費者の理解に取り組んでおり、本ブログではその基本事項について説明していきます。

1. 仮説発見型の定量分析


1.1 マーケティングにおける定量分析と消費者の理解

 まずマーケティングの分析に用いられるデータを大別すると、以下のような集計型と非集計型の2つがあります。

 従来のマーケティング活動における定量分析は、世代ごとの来客率を通して購買層が元々想定していたターゲットと相違ないか、また集計データの観察を通して市場の動向を確認するなど、既に企業が打ち出した施策や商品に対するフィードバックである検証型の分析がほとんどでした。しかしIT技術の進歩により、消費者の具体的なデモグラフィや、購買における意思決定のステップをありありと反映した非集計データが蓄積されるようになり、これらを用いた仮説発見型の分析アプローチが注目されています。

 SEEDATAでも取り組んでいる因子分析は、非集計型のデータを元に消費者異質性に基づいた個人ごとの潜在的な意思決定の因子が特定可能であり、この手順については以下のブログにまとまっています。

因子分析:潜在変数の平均値と消費者異質性の対応
因子分析はマーケティングや心理学・教育学において広く用いられる多変数解析の手法で、大量のデータの背後にある潜在的な共通因子を抽出することができます。SEEDATAではこの手法を様々なデータで適用し、定性リサーチのヒントとしており、従来の...

 それでは、このような仮説発見型の定量分析の目的は一体何なのか、今一度考えてみたいと思います。従来行われていた、集計データを通した検証型分析が成立していた前提として、企業が消費者の趣味嗜好を規定していた時代が長く続いていたということがあります。日本がバブル崩壊を経験する前までの好景気の状態においては、企業は平均的な消費者のニーズを把握しておきさえすれば、個別具体な戦略を練らなくともある程度モノが売れる状況であったのです。

 しかし現在は市場全体として売り上げも伸び悩み、かつ消費者の多様化が進んだことで消費者主導型、需要サイドに合わせるミクロなマーケティングが求められています。つまり消費者の理解というのは普遍的な目的ですが、その解像度が個人レベルまで落ちてきているのが現在であり、異質性を排し市場全体を定点観測するような定量分析では対応できない時代になっているのです。

 したがって仮説発見型の分析が注目されているのですが、後述する通り当然ながらデータには不確かさが含まれており、消費者について真の行動メカニズムを解明することは不可能です。またSEEDATAが重視するような定性的な分析も、データ分析や昨今のAIでは難しいアナロジーやアブダクションを展開する上で重要であり、ゆえにデータのみから仮説を創出するのも好ましいことではありません。重要なのはその折衷であって、そこから定量分析の役割を考えると、データからマーケティングを高度化しうる情報を抽出し、人間の意思決定に与することが最大の目的であると考えます。

1.2 統計モデリング

 ここでは、消費者の意思決定をモデル化することを考えます。一般的にモデルといえば、物理や経済学、ファイナンスにおける数理モデルなどが想起されますが、今回考えるような消費者のデータには不確かさが伴うため、統計学の力を借りる必要があります。この不確かさを確率で表現した数理モデルを、統計モデルと呼びます。このモデルはデータがなくても仮定することのできる枠組みであり、実際には既存のデータに基づいてパラメタや未来のデータを統計的に推定することで、初めて真価を発揮します。

 ここでいうデータとは、通常は個人に対して集計されていない非集計データを指しており、分析を通して個人ごとの差異について論ずることが可能になります。この比較を潜在的な変数を通して行うために、モデルには異質性や潜在変数を取り込んだものが好まれ、因子分析においてはまさに\(z_i\)が対応します。(EMアルゴリズムにおいては、潜在変数の分布の平均値\(\mu_{z_i|x_i}\)が異質性に対応する)

因子分析:基本表式とパラメタ・変数の定性的意味、データ内の異質性に基づいたモデル
因子分析はマーケティングや心理学・教育学において広く用いられる多変数解析の手法で、大量のデータの背後にある潜在的な共通因子を抽出することができます。SEEDATAではこの手法を様々なデータで適用し、定性リサーチのヒントと...

 またこのようなモデルにおいては、個人ごとのミクロな情報のみならず、マクロに俯瞰した時の情報も得ることができます。因子分析においては因子負荷量\(\Lambda\)が潜在変数からデータに対する変換となっており、ここから因子のラベリングが可能になります。LDAにおいても、各要素に対する潜在変数の分布が得られるだけではなく、ハイパーパラメタ\(\alpha\)が全体のトピックの分布を反映した量としてアウトプットされます。

トピックモデル:文書データの粗視化とハイパーパラメタの概念的意味
トピックモデルは複数の文書データに共通のトピック群を探す手法で、文章の中で言語的に固定された単語や意味カテゴリではなく、複数の単語の共起性によって創発される潜在的意味を抽出してくれます。今回は、トピックモデルの入力となる文書データが粗視化さ...

 このようにして見ると、ベイジアンモデリングはこれまで説明してきた仮説発見型の分析と非常に相性がよく、それは人間が主観的に決める事前分布とそこからデータを通して学習する過程を考慮しても理解できるでしょう。次に、統計モデルを導入する前提として効用最大化理論について説明していきます。

2. 非集計行動モデリングの基本


2.1 効用最大化理論

 ここから消費者が実際に購買を行う際の、意思決定の手順をモデル化していきます。統計モデリングにおいては、消費者が商品を選択する際に効用最大化理論に則って合理的に判断をしているという仮定を置きます。これは意思決定の単位は個人一人一人であり、リアルな店舗やオンライン上など様々な購買環境において複数の選択肢がある時、この中から最も好ましいものを選択するというごく基本的な仮定です。確率的な不規則性を考慮して、数式からこれを理解してみましょう。

 ある時点\(t\)において個人\(i\)が下した判断を\(y_{t,i}\)として、\(y_{t,i}=j\)ならば\(i\)は時点\(t\)で選択肢\(j\)を選んだということにします。時点\(t\)における\(i\)にとっての選択肢の集合を、\(A_{t,i}\)とし、また\(y_{j,t,i}\)を選択肢\(j\)を選んだ場合は\(y_{j,t,i}=1\),選ばなかった場合は\(y_{j,t,i}=0\)を返すような変数とします。次に、それぞれの選択に対する好ましさを、効用という潜在変数\(U_{j,t,i}\)を用いて定めます。この効用には、企業側のプロモーションと個人ごとのニーズに起因する2つの確定的なファクターが想定されますが、それにプラスして意思決定でランダムに生じる不規則性を表現するため確率項を考えましょう。これが統計モデルにおける、不確かさの確率的な表現を担います。それぞれ確定項\(V_{j,t,i}\)と確率項\(\epsilon_{j,t,i}\)として、さらに\(V_{j,t,i}\)は顕在データないし潜在変数の線形結合として表現されるとすると、効用は以下のように表式できます。

\begin{eqnarray}
U_{j,t,i}&=&V_{j,t,i}+\epsilon_{j,t,i}\tag{1}\\[1.0em]
&=&Z^0_{j,t,i}\beta_0+Z^1_{j,t,i}\beta_1+…+Z^p_{j,t,i}\beta_p+\epsilon_{j,t,i}\tag{2}\\[1.0em]
&=&\boldsymbol{\rm Z}_{j,t,i}\boldsymbol{\rm \beta}+\epsilon_{j,t,i}\tag{3}
\end{eqnarray}

\(\boldsymbol{\rm Z}\)は確定項で先述の通り顕在データや潜在変数であり、\(\boldsymbol{\beta}\)はその係数で各確定項に対する寄与を表しています。式(3)で行列表現を用いていますが、全体を通して効用\(U_{j,t,i}\)はスカラーであることに注意しましょう。ここから効用最大化理論に基づいて、個人\(i\)が時点\(t\)で選択肢\(j\)を選ぶ確率\(p_{j,t,i}\)を表すと、以下のようになります。

\begin{eqnarray}
p_{j,t,i}&=&{\rm Prob}\bigg(U_{j,t,i}>\max_{j\neq k,j,k\in A_{t,i}}\ U_{k,t,i}\bigg)\tag{4}\\[1.0em]
&=&{\rm Prob}\bigg(V_{j,t,i}+\epsilon_{j,t,i}>\max_{j\neq k,j,k\in A_{t,i}}\ V_{k,t,i}+\epsilon_{k,t,i}\bigg)\tag{5}
\end{eqnarray}

 この式はどういうことを言っているかというと、仮に確定項について選択肢ごとで大小関係があったとしても、確率項が変動することによって合理的な判断が変化するということを表しています。実際確率項\(\epsilon_{j,t,i}\)がなければ確定項のみの比較になってしまうため、効用が最大のものを一意に選んでしまえば、効用が最大の選択肢\(j\)について\(p_{j,t,i}=1\)で他は\(0\)になってしまうでしょう。

 つまり確定項が最も小さく本来ならば非合理的な選択肢が、不規則な確率項によって最も合理的になる可能性もあるのです。式(5)は、確定項と確率項をあえて明示することで、\(p_{j,t,i}\)の性質について理解してもらおうとしています。ここで生じる疑問として、それぞれの選択肢は効用の順序関係から優劣がつくので、その値自体に意味はないのではないかということがあります。それでは、相対効用なるものを定義していきましょう。

2.2 相対効用

 例として相対的な効用の基準となる選択肢を\(J\)番目のものとして、他の選択肢\((j=1,2,..,J-1)\)と効用について差をとって相対効用\(u_{j,t,i}\)を定義しましょう。

\begin{eqnarray}
u_{j,t,i}&=&U_{j,t,i}-U_{J,t,i}\tag{6}\\[1.0em]
&=&(Z^0_{j,t,i}-Z^0_{J,t,i})\beta_0+(Z^1_{j,t,i}-Z^1_{J,t,i})\beta_1+…+(Z^p_{j,t,i}-Z^p_{J,t,i})\beta_0+\epsilon_{j,t,i}-\epsilon_{J,t,i}\tag{7}\\[1.0em]
&\equiv&\boldsymbol{\rm Z}_{j,t,i}\boldsymbol{\rm \beta}+\epsilon^*_{j,t,i}\tag{8}
\end{eqnarray}

ここで\(\boldsymbol{\rm Z}_{j,t,i}\)とは、\(J\)番目の選択肢と他の選択肢の説明変数の差をとったものであり、式(8)を行列で表示すると次のようになります。

\begin{eqnarray}
\boldsymbol{\rm u}_{t,i}=\boldsymbol{\rm Z}_{t,i} \boldsymbol{\beta}+\boldsymbol{\epsilon}^*_{t,i}\tag{9}
\end{eqnarray}

この相対効用を用いて、効用最大化理論に基づいた式(4)と(5)を表すと以下のようになります。

\begin{eqnarray}
p_{j,t,i}&=&{\rm Prob}\bigg(u_{j,t,i}>\max_{j\neq k,j,k\in A_{t,i}}\ u_{k,t,i}\land u_{j,t,i}>0\bigg)\tag{10}\\[1.0em]
&=&{\rm Prob}\bigg(\boldsymbol{\rm Z}_{j,t,i}\boldsymbol{\beta}+\epsilon^*_{j,t,i}>\max_{j\neq k,j,k\in A_{t,i}}\ \boldsymbol{\rm Z}_{k,t,i}\boldsymbol{\beta}+\epsilon^*_{k,t,i}\land \boldsymbol{\rm Z}_{k,t,i}\boldsymbol{\beta}+\epsilon^*_{k,t,i}>0\bigg)\tag{11}
\end{eqnarray}

 このようにして、実際のモデリングでは選択肢の数を\(J-1\)として分析を行うことができます。これは、\(p_{j,t,i}\)が\(j\)について総和をとったときに\(1\)になるという、確率の条件と対応しています。モデルの大枠はこのようになっていますが、重要なのは確率項の生成です。\(\epsilon^*_{j,t,i}\)が従う分布には、よく知られているものとしてガンベル分布と多変量正規分布があり、それぞれにロジットモデルとプロビットモデルと呼ばれる統計モデルが存在します。これらは選択に関わるモデルであるため、離散選択モデルと呼ばれています。次回はモデルのより詳細な内容について説明し、実際に尤度関数を表式するところまで取り組みたいと思います。

まとめ


本ブログでは、そもそもマーケティングにおいて定量分析を行う意義の説明から、統計モデリングの基礎について説明しました。その中で、消費者の意思決定をモデル化する上で重要な効用最大化理論に触れ、潜在変数として効用を仮定した場合の具体的な表式と、相対効用について解説しました。次回は、具体的なモデリングと尤度関数の設定について解説していきます。

参考文献
[1] ビッグデータ時代のマーケティング, (著)佐藤忠彦,樋口知之,講談社 理工学専門書

広本拓麻
Written by
広本拓麻(Hiromoto Takuma)
SEEDATA Technologies