消費行動の統計モデリング #2:ロジットモデルとその尤度関数

購買の行動や意思決定にまつわるビッグデータの出現や消費者の多様化が進む中、企業のマーケティング活動においてはミクロな市場に対して理解を深め、的確なインサイトを突いた訴求を実現することが求められています。SEEDATAでは定性的なリサーチに加え統計モデルを駆使した消費者の理解に取り組んでおり、本ブログでは離散選択モデルの基本としてロジットモデルについて説明していきます。

ロジットモデルによる離散選択行動のモデリング


前回は効用最大化理論に基づいて、消費者の購買行動をモデル化した離散選択モデルについて説明しました。

消費行動の統計モデリング #1:定量分析の意義と効用最大化理論
購買の行動や意思決定にまつわるビッグデータの出現や消費者の多様化が進む中、企業のマーケティング活動においてはミクロな市場に対して理解を深め、的確なインサイトを突いた訴求を実現することが求められています。SEEDATAでは定性的なリサーチ...

 それぞれの選択肢に対して効用という潜在変数を仮定し、効用が最も大きいものが合理的に選ばれるという前提を置くことで、選択肢が選ばれる確率を定式化することができました。ある時点\(t\)において、個人\(i\)が選択肢\(j\)を選ぶ効用\(U_{j,t,i}\)を用いて、\(j\)を選択する確率\(p_{j,t,i}\)は以下のようになります。

\begin{eqnarray}
p_{j,t,i}&=&{\rm Prob}\bigg(U_{j,t,i}>\max_{j\neq k,j,k\in A_{t,i}}\ U_{k,t,i}\bigg)\tag{1}\\[1.0em]
&=&{\rm Prob}\bigg(V_{j,t,i}+\epsilon_{j,t,i}>\max_{j\neq k,j,k\in A_{t,i}}\ V_{k,t,i}+\epsilon_{k,t,i}\bigg)\tag{2}
\end{eqnarray}

 また式(2)にもある通り効用は確定項\(V_{j,t,i}\)と確率項\(\epsilon_{j,t,i}\)に分かれており、確定項は観測されたデータや別の潜在変数を説明変数として、係数で重み付けした値に一致します。今回は確率項に対して分布を仮定することで、離散選択の基本的な統計モデルであるロジットモデルについて考え、尤度関数の導出とモデルの問題点について説明していきます。

1. 効用の誤差項とガンベル分布

 ある選択肢\(j\)における効用\(U_{j,t,i}\)の確率項\(\epsilon_{j,t,i}\)において、具体的な分布としてガンベル分布を仮定します。ガンベル分布とは、実パラメタ\(\omega,\eta\)を用いて以下のように表式される確率分布です。

\begin{eqnarray}
f(\epsilon_{j,t,i}|\omega,\eta)&=&\omega \exp(-\omega(\epsilon_{j,t,i}-\eta))\exp(-\exp(-\omega(\epsilon_{j,t,i}-\eta)))\tag{3}
\end{eqnarray}

 式からは分かりづらいですが、このガンベル分布は最頻値が\(\eta\)で平均が\(\eta+\frac{\gamma}{\omega}\)(\(\gamma\)はオイラー定数)、分散が\(\frac{\pi^2}{6\omega^2}\)の非対称な分布であり、\(\eta=0,\omega=1\)としたときにガンベル分布と正規分布\(N(0,1)\)と比較すると以下の図のようになります。

 これを見ると分かるようにガンベル分布は正方向に裾野が広くなっていることが分かります。効用の確率項\(\epsilon_{j,t,i}\)が\(t\)に対して独立で、\(\eta=0,\omega=1\)のガンベル分布に従うと仮定した離散選択モデルをロジットモデルと呼びます。したがって購買における商品選択で生ずる偶然的なファクターは、いずれも選択肢に対してポジティブなものである場合が多いこととなります。ロジットモデルにおいて、効用最大化理論から式(1),(2)で表されるような確率\(p_{i,t,j}\)を求めると、以下のようになります。

\begin{eqnarray}
p_{j,t,i}&=&{\rm Prob}(y_{t,i}=j)\tag{4}\\[1.0em]
&=&\frac{\exp(V_{j,t,i})}{\sum_{k=1}^J \exp(V_{k,t,i})}\tag{5}
\end{eqnarray}

 式(5)から、選択の確率的な振る舞いは確定項のみを引数にしており、単純なモデルであることが分かります。選択肢が2つ(\(J=2\))であるときは2項ロジットモデル、それ以上(\(J>2\))の場合は多項ロジットモデルと呼ばれており、ここでは例として2項ロジットモデルについて考えてみましょう。選択肢\(j=a,b\) がある場合、例えば個人\(i\)が時点\(t\)において\(a\)の方を選択し購入する確率\(p_{a,t,i}\)は以下のように表されます。

\begin{eqnarray}
p_{a,t,i}&=&\frac{\exp(V_{a,t,i})}{\exp(V_{a,t,i})+\exp(V_{b,t,i})}\tag{6}\\[1.0em]
&=&\frac{1}{1+\exp(-(V_{a,t,i}-V_{b,t,i}))}\tag{7}\\[1.0em]
&=&\frac{1}{1+\exp(-x)}\tag{8}
\end{eqnarray}

 つまり確率としては、式(7)のように選択肢\(a\)と\(b\)の相対効用の関数として表すことができて、\(x=V_{a,t,i}-V_{b,t,i}\)と置くと確率\(p_{a,t,i}\)は以下のようにシグモイド型の曲線となります。

 ゆえに\(a\)と\(b\)で効用が等しいときは等確率で、違いが大きいときはどちらかが高い確率で選択されるようなモデルであり、これは多項ロジットモデルにおいても同様になっています。また選択肢で効用に大きな差があるときは、進んで効用の大きい方が選択される確率が高くなっていることが、上図から理解できると思います。

 入力となる説明変数に対して選択肢ごとに効用を求めるには、その係数である\(\rm \boldsymbol{\beta}\)を求める必要があります。そのためにはロジットモデルにおける尤度関数を設定する必要があり、これを用いて\(\rm \boldsymbol{\beta}\)の最尤推定量を求めることで、初めてこの統計モデルは予測や各説明変数に対する重み\(\rm \boldsymbol{\beta}\)の解析という点で真価を発揮することとなります。

2. ロジットモデルの尤度関数

 それでは、ロジットモデルにおける尤度関数を求めていきましょう。総人数が\(I\)人(\(i=1,2,..,I\))で、それぞれの個人から\(T_i\)個の選択行動をデータとして保有しており、選択肢の総数が\(J\)個だとします。また変数\(y_{j,t,i}\)を、時点\(t\)で個人\(i\)が選択肢\(j\)を選んだ場合は\(y_{j,t,i}=1\), 選ばなかった場合は\(y_{j,t,i}=0\)となると定義します。各個人の選択、ある個人における各時点の選択はそれぞれ独立であるとすると、多項ロジットモデルの尤度関数は以下のようになります。

\begin{eqnarray}
L(\theta)&=&\displaystyle \prod_{i=1}^{I}\displaystyle \prod_{t=1}^{T_i}
p_{1,t,i}^{y_{1,t,i}}p_{2,t,i}^{y_{2,t,i}}\dots p_{J,t,i}^{y_{J,t,i}}\ \ \ \ \ \ \ \ \ \ \ \ \ :\  \theta=\{\beta_0,\beta_1,\dots,\beta_p\}\tag{8}\\[1.0em]
&=&\displaystyle \prod_{i=1}^{I}\displaystyle \prod_{t=1}^{T_i}
\Big(\frac{\exp(V_{1,t,i})}{\exp(V_{1,t,i})+\exp(V_{2,t,i})+\dots+\exp(V_{J,t,i})}\Big)^{y_{1,t,i}}\\
&\ &\ \ \ \ \ \ \ \ \ \ \ \ \ \Big(\frac{\exp(V_{2,t,i})}{\exp(V_{1,t,i})+\exp(V_{2,t,i})+\dots+\exp(V_{J,t,i})}\Big)^{y_{2,t,i}}\\[1.0em]
&\ &\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \dots\\[1.0em]
&\ &\ \ \ \ \ \ \ \ \ \ \ \ \ \Big(\frac{\exp(V_{J,t,i})}{\exp(V_{1,t,i})+\exp(V_{2,t,i})+\dots+\exp(V_{J,t,i})}\Big)^{y_{J,t,i}}
\tag{9}
\end{eqnarray}

 ここで推定されるパラメタは確定項の説明変数の係数\(\rm \boldsymbol{\beta}\)であり、一見複雑な式に見えるものの、計算そのものはシンプルにすることができます。しかしロジットモデルは単純なモデルであるがゆえの欠点もあり、それはIIA特性(Independence from Irrelevant Alternatives)として知られています。この問題点の例として、赤バス・青バスを用いた説明が有名です。

3. ロジットモデルの問題点:IIA特性

 ここでは移動手段としてバスか自転車の手段があった場合を考え、移動のためにそれぞれを選択する確率を考えます。また仮定として、自転車とバスが効用の確定項としては等しく、したがって選択確率も等しいとします。ここでバス会社が設立40周年記念で、元々の赤色だったバスの半分を青色にしたとしましょう。多くの人にとっては色の違いによって利便性の差異は生じないはずであるため、赤いバスも青いバスも等しい効用であるとすると、自転車とバスの選択確率は変化しないはずです。しかし、ロジットモデルにおいてこの変化を考えると、以下のような問題が発生します。

 青色と赤色のバスで効用が等しいことによって選択確率も等しくなり、結果として色が増えただけで、自転車に比べバスが2倍選ばれやすくなるという非現実的な問題が発生します。このように、二つの選択肢の選択確率の比率が他の選択肢の効用に影響されないことがIIA特性の主な問題点です。また比率が変化しないということは、選択肢が増えた場合の交差弾力性も等しくなることを意味しています。以下のように、長距離の移動手段として初めバスと自転車を考えていたとし、そこから新幹線という選択肢を加えた場合を考えます。

 長距離の移動なので、初めはバスの方が自転車より4倍選択される確率が高いとすると、選択肢として新幹線が増えたとしてもこの関係は維持されます。この時、選択肢を追加する前後でバスと自転車の選択確率はそれぞれ\(0.5\)倍と等倍率に変化しますが、現実的には追加される選択肢の特性によって元々の選択肢であるバスと自転車の確率も変化するはずです。したがってロジットモデルでは、交差弾力性がゼロの独立な選択肢となってしまい、これも予測に非現実的な仮定をもたらすIIA特性の問題点になります。

 この対応策としては、色のみが異なるバスを”バス”というラベルにまとめたり、新幹線とバスを公共交通手段としてグループ化したモデルであるネステッドロジットモデルが広く用いられています。次回はこの新しいモデルについて説明し、また誤差項に多変量正規分布を仮定したプロビットモデルについても説明していきます。

まとめ


本ブログでは、離散選択モデルの最も基本的な一例としてロジットモデルについて説明しました。その中で、誤差項が従うガンベル分布の特性について説明し、パラメタを決定するための尤度関数と、ロジットモデルの問題点であるIIA特性について説明しました。次回は、この課題を解決したネステッドロジットモデルと、誤差項に正規分布を仮定したプロビットモデルについて説明します。

参考文献
[1] ビッグデータ時代のマーケティング, (著)佐藤忠彦,樋口知之,講談社 理工学専門書

広本拓麻
Written by
広本拓麻(Hiromoto Takuma)
SEEDATA Technologies