データサイエンティストが使う『計量経済学』の定義とワークフローのまとめ

データサイエンティストと計量経済学

データサイエンティストと一口で言っても、機械学習(machine learning)に軸足を置いた「機械学習エンジニア」に近い人材もいれば、計量経済学(econometrics)に軸足を置いた「データアナリスト」に近い人材もいます。

(もちろん名刺・役職的にどう呼ばれるかは会社によるところも大きいとは思いますが、後者の方が「〇〇サイエンティスト」「〇〇アナリスト」などと呼ばれることが多い印象ですネ)

しかしながら、学部や大学院で計量経済学を専門に学んでからデータサイエンティストになっている人は必ずしも多くはないように思います。

「カイ2乗検定」「回帰分析」「有意性」といった用語を、実務を通して都度都度学んで、少しずつ計量経済学の体系を身につけていることが多いのではないでしょうか。

そこで今回は、計量経済学とはそもそも何だったかを振り返りつつ、計量経済学者が行う一般的な分析のワークフローを紹介していきたいと思います。

そもそも計量経済学とは

Wikipediaによると、「経済学の理論に基づいて経済モデルを作成し、統計学の方法によってその経済モデルの妥当性に関する実証分析を行う学問」とあります。

抽象的な説明でわかりにくいですよね。ひとつひとつ見ていきましょう。

まず、「経済学」とありますが、経済分野には計量経済学以外にも「経済理論」「数理経済学」などといくつかの分野があります。これらはどのようなもので、計量経済学とはどう違うのでしょうか?

経済理論との違い

まず、経済理論は、経済現象の定性的な理論・仮説を提案する学問と言ってよいかと思います。たとえば、「その他の指標が一定で、商品の価格が上がれば、需要は下がる」と言った主張をします。

それに対して計量経済学では、価格と需要はどのような数値的な関係があるのか定量的(経験的)に分析することになります。

理経済学との違い

また、数理経済学は経済現象の数学的な表現を考える学問です。一般的に、「それが経験的に正しいかどうか」は一旦脇に置いて考えているようなイメージです。

それに対して計量経済学では、その数学的な表現の妥当性を検定することを行っていきます。

計量経済学のワークフロー

では、「経済学の」というところから計量経済学の位置づけを振り返ったところで、「(経済学の)理論に基づいて経済モデルを作成し、統計学の方法によってその経済モデルの妥当性に関する実証分析」という部分を考えていきましょう。

これは、計量経済学の具体的なワークフローを見ていけばわかりやすいかと思います。

f:id:ekanoh:20180816142528p:plain

1. 定理・仮説を立てる

経済学では言わずと知れたケインズは以下のような仮説を立てたそうです。

「収入が増加するほど消費も増加するが、消費の増加量は収入の増加量よりは少ない」

2. 定理を表現する数学的なモデルの設定

1.の仮説では、収入と消費の数値的な関係性が具体的には設定されていませんよね。

これを数字を使ってざっくりと表現し直すと、「新たに増加した1単位の所得のうち消費にまわる部分の割合(=限界消費性向、MPC)は0より大きく1より小さい。」という意味だと解釈できます。

従って、数理経済学的には以下のような定式化を考えるのが妥当でしょう。(回帰分析)

Y = \beta_1 + \beta_2 X

0\lt\beta_2\lt1

f:id:ekanoh:20180816115242p:plain

なお、この関数は一般に消費関数と呼ばれて、Yが従属変数(または目的変数)、Xが独立変数(または説明変数)と呼ばれます。

3. (計量)経済学モデルの設定

しかしながら、実際に500世帯の収入と支出の実データを取得できたとして、横軸に収入、縦軸の支出を取ってプロットしたとしても、上記のような綺麗な直線上に並ぶことはありません。(ありますか?)

実際には、収入だけでなく、ほかの変数が支出に寄与することがあるからです。

たとえば、収入が同じだとしても、家族の規模や構成員の年齢、宗教・価値観などによって支出の傾向が変わることは容易に想像できますよね。

なので、計量経済学としてのモデリングでは上記の関数を以下のように修正します。

Y = \beta_1 + \beta_2 X + \mu

0\lt\beta_2\lt1

ここで、\muは誤差項(error term)と呼ばれる確率変数で、収入以外の他の変数による誤差を吸収するために追加されたものです。

f:id:ekanoh:20180816194824p:plain

4. データを使ってパラメータを推定

さて、上記のようにモデルが定義できたら、実際のデータを使って最適なパラメータ(たとえば\beta_1\beta_2)を推定していきます

f:id:ekanoh:20180816195536p:plain

実務上は上のようなデータと、ExcelやRなどの統計ツールを使ってパラメータの最適化を行います。(データは架空のもの)

ちなみに、具体的な回帰分析の方法については以下の記事などをチェックしてみてください。

honawork.hatenablog.com

5. 検定

それでは、上記のデータを使って回帰分析を行って、たとえば、以下のような結果が得られたとします。(数字は適当に設定しています。笑)

 Y = -184 + 0.71X_i

式の上では、0\lt\beta_2\lt1となっているため、「収入が増加するほど消費も増加するが、消費の増加量は収入の増加量よりは少ない」という最初に設定した仮説を満たしているように見えますよね。

しかし、「上のデータでたまたまそうなっただけじゃないのか」という可能性があるため、実際には統計的に確からしいかの検定が必要です(!)

たとえデータに当てはまりがよかったとしても、それが頻繁に起こりうるような誤った結果(=有意ではない)ならば、仮説が検証できたと言えないというわけですね。

ここで最初にも言及した「有意性」「カイ2乗検定」など、「検定」と呼ばれる統計用語が登場してきます。

honawork.hatenablog.com

6. 予測する

仮説検定が終わり、上記のモデルの妥当性が証明できるところまでくれば、将来予測に使っても差し支えありません。

たとえば、上は2018年までのデータですが、収入の見込みなどわかっていれば翌年以降である2019年や2020年の消費予測などをすることができます

したがって、ビジネスや政治政策における意思決定に使っていくことができます。

たとえば、政策を変えれば収入が増えるとき、消費がどれくらい変化するか?を推定して、経済へのインパクトを織り込みながら政策の決定をすることができるわけですね。

まとめ

統計や計量経済学で登場する用語がどういう文脈で使用されるものなのかのイメージが付きましたでしょうか?

場当たり的に学習をしがちな「回帰分析」「検定」「有意性」などの言葉も、いつどういう場面で登場するかわかった上で学習を進めていけると、見通しがよくなってよいかと思われます。