Pythonによる日経平均解析：本当に対数正規分布？

こんにちは！若葉のマフィンです！

今回の記事では、前回の記事

wakaba-mafin.hatenablog.com

の続きでダウンロードした日経平均のデータの性質を詳しく見ていきたいと思います！

はじめに
準備
日経平均の分布
まとめ

はじめに

まず、株価などの経済のデータはランダムに変動しているとみなすことができるということが知られています。そして株価などの分布に対してOsborne, "Brownian Motion in the Stock Market," 1954などの研究により「対数正規分布」と呼ばれる確率分布を仮定して解析を進めていくことが１つの理論として確立しているようです。

ここで「対数正規分布」とはその名が示す通り、確率変数の対数をとれば正規分布（身長などが従う分布）に従う分布で、確率密度関数は

$p(x) = \frac{1}{\sqrt{2\pi}\sigma x} \exp\left( -\frac{(\log x - \mu)^{2}}{2\sigma^{2}}\right)$

と表されます（なんか煩雑...）。

（正規分布の確率密度関数は $n(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left( -\frac{(x-\mu)^{2}}{2\sigma^{2}}\right)$ ）

パラメータを変えながら対数正規分布の確率密度関数をplotすると、こんな感じのグラフになります。

f:id:wakaba-mafin:20181116014120j:plain

というわけで、今回は日経平均が本当に対数正規分布に従っているかどうか見てみましょう！

準備

環境としては

scipy(numpy)
matplotlib
pandas
pandas-datareader

を使いますが、基本的には

wakaba-mafin.hatenablog.com

と同じ環境にpandas-datareaderが加わっていれば問題ないです！

最初に日経平均データを準備しましょう！まずはライブラリ。

import scipy as sp
from scipy import stats
import pandas as pd
import matplotlib.pyplot as plt
import pandas_datareader.data as web
from datetime import datetime

そして前回の記事

wakaba-mafin.hatenablog.com

と同じようにして日経平均のデータを過去5年間くらいダウンロードします。

df = web.DataReader(
    'NIKKEI225',
    'fred',
    datetime(2014, 11, 14),
    datetime(2018, 11, 14)
)

続いて、前処理としてNaNなどを処置します。

nikkei225=df["NIKKEI225"].interpolate().values

この処理はある日にちの日経平均データがNaNであれば、その前後の日にちの日経平均データでNaNを補間するものです。

さて、これで準備は完了！早速分布を見ていきましょう！

ふむ。日経平均の前日比が比較的小さい範囲では対数正規分布と実際のデータの生存関数はかなり近いようにも見えますが、日経平均の前日比が比較的大きいところでは大きく外れてますね... もちろん、これは日経平均の前日比が大きいところではサンプル数が減ってしまうことも関連はしてくるのでしょうが...対数正規分布と比べると日経平均の前日比が極めて大きくなることも"十分に"あるということを表しているようですね...もしかすると日経平均の前日比は対数正規分布と比べると裾が厚い可能性がありそうですね

ということは恐らく累積分布関数

$CDF(x) := Pr\left\{ X \leq x\right\}$

つまり日経平均の前日比が与えられた $x$ 以下になる確率を見てみると...

plt.plot(sp.sort(nikkei225[1:]/nikkei225[:-1]), sp.linspace(0,1,len(nikkei225)+1)[1:-1], "ko-", label="data")
plt.plot(sp.sort(nikkei225[1:]/nikkei225[:-1]), sp.stats.lognorm.cdf(sp.sort(nikkei225[1:]/nikkei225[:-1]), shape, loc, scale), "r-", label="log-normal")
plt.xscale("log")
plt.yscale("log")
plt.ylim(ymin=1e-4)
plt.xlabel("NIKKEI225(current)/NIKKEI225(previous)")
plt.ylabel("cumulative distribution function")
plt.show()

f:id:wakaba-mafin:20181116020250j:plain

予想通り！確かに対数正規分布と比べると日経平均の前日比が極めて小さくなることも"十分に"あるということがわかりますね！

つまり、日経平均の前日比は必ずしも対数正規分布に従っておらず、対数正規分布よりも裾の厚い、つまり極めて大きい/小さい値が起こる確率が比較的大きい分布に従っているということですね！確かにこれであれば、ブラックマンデーやリーマンショックのような現象があっても全然不思議じゃなさそうです💦

まとめ

というわけで今回はPythonを使って過去の日経平均（の前日比）の分布を見てみました！その結果、従来（かなり昔）の理論では株価などは対数正規分布に従うとされていましたが、実際には対数正規分布よりも裾の厚い分布に従っている可能性があるということを確認することができました！なかなか奥が深いですね...

裾の厚い分布では分散が有限とは限らないので、大数の法則や中心極限定理が破綻するような気もしないでもないですが...ちょっと勉強したいですね！

間違いのご指摘やご意見等ございましたら、ぜひコメントのほどよろしくお願いします！

今回はここまで！ここまで読んでくださりありがとうございました！

ではでは、次回以降もよろしくお願いします！

若葉の技術メモ

若葉の技術メモ

コンピュータやプログラミング・数理に関して調べたり、取り組んだりしたことをまとめる若葉のノート。

コンピュータ・プログラミング・数理が初めてって方も一緒に勉強していきましょう！

初心は大事！いつでも若葉☘のような意気込みで！

日経平均の分布はどんな形？

はじめに

準備

日経平均の分布

ヒストグラム

分布のフィッティング

裾の厚い分布？

まとめ