ポアソン分布と珍しい現象
自然界で見られる現象のいくつかは、その発生確率というのがポアソン分布で与えられることが知られている。
これに関して、ホーエルの名著「入門数理統計学」の序盤に書かれているポアソン分布の項目について、少し気になる記述があった。これに関連して、本記事ではどのような条件をもつ確率現象がポアソン分布で記述されるのか考えてみた。
イントロ
ポアソン分布は二項分布に対する近似分布として導入されたが、この分布は二項分布とは無関係なある種の問題を取り扱う場合のきわめて有用なモデルなのである。
(中略)
もし、互いに重なり合っていない時間間隔のそれぞれにおいて、ある事象の起こる回数が独立であること、小さい時間間隔において事象が1回起る確率はほぼその間隔の幅に比例すること、小さい時間間隔において事象が2回以上起る確率はその区間で事象が1回起こる確率にくらべて無視できるほど小さいことの3つを仮定するならば、これらの仮定を数学的に定式化することにより、長さが一定のある時間間隔内で事象の起る回数の分布はポアソン分布に従うことが解析的に示される。
(中略)
連続した時間的または空間的区間上で観測値がとられ、前述の3つの仮定が満たされて、事象の生起回数がポアソン分布にしたがうような実験をポアソン過程という。したがって、ポアソン分布はポアソン過程に関する問題を処理する場合の有効な分布で、この分布の正当性は二項分布の近似という任務によるものではない。
ある現象に対して、上述の3つの仮定が満たされている場合、「適切な数式化」を行えばその現象がポアソン分布に従うことが示せるらしいのだが、肝心の数式化についてはホーエルのこの本では述べられていない。
どのようにして定式化されるのだろうか。これが気になったことの一つ目である。
気になったことのもう一点。
これはホーエルの本には書かれていないのだが、ポアソン分布の標語的説明として「珍しい現象は近似的にポアソン分布にしたがう」というものがある。上の仮定を一見したところ、物事の起こりやすさが大きいかどうかに関する記述はない。珍しい現象とポアソン分布がどうつながっているのか?という点に疑問が生じた。これについても、ポアソン近似という手法を通して説明し、ポアソン分布をめぐる二つの解釈(rare or not)の齟齬がどこから来ているのか考えてみる。
適当なテキストを当たれば数学的な記述があるのだろうと思うが、(探すのが面倒なので)いっそのこと自分で考えてみることにした。
ポアソン分布について
まず、使用する記号を整理する。
平均λをもつポアソン分布Poi(λ)にしたがう確率変数Xの確率密度関数 は以下のようになる;
\begin{align}
f(X=n) = \cfrac{\lambda^ne^{-\lambda}}{n!}
\end{align}
この確率変数の期待値と分散は共にλである。
ここでは、三つの仮定を満たす現象を数学的に定式化することでその確率事象がポアソン分布に従うことを示す。次のような形で表現しておこう。
命題
3つの仮定を満たす事象を考える。時間t>0の間にこの事象が起る回数をXとすると、これは確率変数であり、その分布函数はある正の定数λを用いて以下のように与えられる;
\begin{align}
f(X=n, t) = \cfrac{(\lambda t)^ne^{-\lambda t}}{n!}
\end{align}
つまり、Xは Poi(λt)にしたがう確率変数である。
仮定の数学的定式化
ここではホーエルの本に書かれていた3つの仮定について、それが数学的に意味するところを考えてみる。
- 互いに重なり合っていない時間間隔のそれぞれにおいて、ある事象の起こる回数が独立であること
- 小さい時間間隔において事象が1回起る確率はほぼその間隔の幅に比例すること
- 小さい時間間隔において事象が2回以上起る確率はその区間で事象が1回起こる確率にくらべて無視できるほど小さいこと
うむ、一読しただけではどれがどう違うのかいまいちよくわからない。一つずつみていこう。
一つ目の条件は、独立性の仮定である。別々の区間の上で起る現象は互いに影響を及ばさないということである。したがって、全体の事象というのはそれぞれの区間上の事象の積として与えられる。
具体例でいえば、今日この地球に隕石が落ちてくる事象と、明日隕石が落ちてくる事象は互いに関係がない、というようなものである。ポイントは、時間幅には依存していないということであり、今日明日でなくとも、「今から一秒間」と「その後さらに一秒間」という関係においても互いに事象は独立である。時間スケールの大小に無関係なのだ。
二つ目の条件は、ある時間間隔において事象が1回起る確率の分布関数が微分可能(測度論でいうところの絶対連続)で、しかもその微分係数が一定であることを述べている。小さい時間間隔という表現はなんとも曖昧ではあるが、ここではまず次のように安直に述べてみる。
定式化
事象に対して次を満たす正の実数Δt>0が存在する;
時刻tから0≦h≦Δtの間に事象が1回起る確率を とすると、ある正の実数λ(t)が存在して
\begin{align}
p(t, h) = \lambda (t)h \ \ (0 \le h \le \Delta t)
\end{align}
と表される。ここで、λ(t)は時刻tに依存するかもしれないことに注意しよう。
とは書いたものの、実はこのλ(t)はtによらない定数になることが以下のようにしてわかる;
時刻 t<t' の二つを考える。区間]を幅以下の小区間に分割し、各区間上で上の表式を順次適用することでがわかる。
詰まるところ、 はtによらない値をとることになる。
したがって、次のように定式化できる;
定式化
事象に対して次を満たす正の実数Δt>0が存在する;
ある時刻から0≦h≦Δtの間に事象が1回起る確率を とすると、ある正の定数λが存在して
\begin{align}
p(h) = \lambda h \ \ (0 \le h \le \Delta t)
\end{align}
と表される。
最後に三つ目の条件だが、これはつまり、非常に短い時間であればある事象が(ほぼ同時に)2回以上起こることはない、と言っている。例えば、1年間という長いタイムスパンであれば地球上に隕石が複数回落ちることは十分に考えられるだろうが、これを一秒間などに狭めて考えれば1秒で複数個の隕石が落下することはほとんどないと考えて良いだろう、ということだ。
定式化すると次のようになる
定式化
事象に対して次を満たす正の実数Δt'>0が存在する;
ある時刻からΔt'の間に事象がk回起る確率を とすると、
\begin{align}
P(X > 1) = 0
\end{align}
を満たす。つまり、事象は起こるとしても高々一回である。
さて、一応この三つの仮定をまとめておこう。
仮定の定式化A
ある事象が時間t>0の間に起る回数をX(確率変数)とし、その分布函数をと表す。
このとき、以下を満たすような正の実数Δt>0が存在する;
t>0を幅の小区間に分割すると、
(仮定1)
各区間上で事象の起こる回数Xは独立である。
(仮定2)
ある小区間において、微小時間hの間に事象が1回起る確率を とすると
\begin{align}
p(h) = \lambda h
\end{align}
が成り立つ。
(仮定3)
小区間において事象がk回起る確率を とすると、
\begin{align}
P(X > 1) = 0
\end{align}
が成り立つ。
さて、ここまでは何がしかの区間の存在を仮定していたのだが、区間幅の存在を仮定するのはどうも曖昧である。というか、よりももっと細かく分割を与えることも可能なので、どうせなら、小区間の中で最も強い表現であるところの微分法を使って仮定を言い直そう。
仮定の定式化B
ある事象が時間t>0の間に起る回数をX(確率変数)とし、その分布函数をと表す。
このとき、以下を仮定する;
(仮定1)
各時点上で事象の起こる回数Xは独立である。
(仮定2)
時刻tにおいて事象が1回起る確率を とすると
\begin{align}
\cfrac{dp(t)}{dt} = \lambda
\end{align}
が成り立つ。
(仮定3)
ある時刻tにおいて事象がk回起る確率を とすると、
\begin{align}
P(X > 1, t) = 0
\end{align}
が成り立つ。
少し細かく話してしまったが、以上でセッティングは終了である。
ポアソン分布の導出
二項分布による導出
まず、二項分布の極限としてポアソン分布を導出してみよう。
上のセッティングのところで頑張って仮定を定式化したが、その苦労の割には証明はあっけなく終わってしまう。
こちらでは仮定の定式化Aの方を利用する。
命題
仮定Aを満たす事象を考える。時間t>0の間にこの事象が起る回数をXとすると、これは確率変数であり、その分布函数は近似的に以下で与えられる;
\begin{align}
f(X=n, t) \approx \cfrac{(\lambda t)^ne^{-\lambda t}}{n!}
\end{align}
(証明)
仮定Aにある]に対し、Nを十分大きくとることにより区間]を幅が以下となる小区間に分割する。
このとき、仮定の1〜3から、
・各小区間で事象が起こるかどうかは独立
・小区間内で1回事象が起こる確率はである
・各小区間では、事象の起こる回数は1か0かのどちらかである
が言えるから、 は近似的に二項分布の考え方を用いることができる。
\begin{align}
f(X = n, t) \approx {}_N \mathrm{C}_n \left (\cfrac{\lambda t}{N} \right)^n \left (1-\cfrac{\lambda t}{N} \right)^{(N-n)}
\end{align}
このような式が出てきたら、Nを極限に飛ばすのは常套手段である。 この操作は区間]の細分をさらに細かくするだけなので、三つの仮定には反しない。極限をとると、
\begin{align}
f(X = n, t) &\approx {}_N \mathrm{C}_n \left (\cfrac{\lambda t}{N} \right)^n \left (1-\cfrac{\lambda t}{N} \right)^{(N-n)} \\
&\approx \cfrac{(\lambda t)^ne^{-\lambda t}}{n!} \ \ (N \rightarrow \infty)
\end{align}
となり、近似的にではあるが等式の成立が示された。
微分方程式による導出
二項近似の導出にくらべてこちらは少し格好が悪いのではあるが、微分で定式化している場合はこちらの方が整合性が良いので紹介してみる。
命題
仮定Bを満たす事象を考える。時間t>0の間にこの事象が起る回数をXとすると、これは確率変数であり、その分布函数は以下で与えられる;
\begin{align}
f(n, t) = \cfrac{(\lambda t)^ne^{-\lambda t}}{n!}
\end{align}
(証明)
まず、微小時間において、事象が生じるかどうかについて場合分けできることから以下の式が成り立つ(仮定の1〜3全て用いて立式している);
\begin{align}
f(n+1, t+dt) = &f(n, t)\lambda dt - f(n+1, t) (1-\lambda dt) \\
\therefore \cfrac{d}{dt}f(n+1, t) = & \lambda(f(n, t) - f(n+1, t)) \ \ (n>0)
\end{align}
n=0の場合も とすることで上式の表記で表すことができる。
また、このtに関する微分方程式の初期条件は、「期間の初めにはまだ事象は一度も起こっていない」のだから、明らかに以下のようになる。
\begin{align}
f(n, 0) = 1 \quad (n=0),\quad 0 \quad (n \ge 1)
\end{align}
詳細は書かないが、この方程式が
\begin{align}
f(n, t) = \cfrac{(\lambda t)^ne^{-\lambda t}}{n!}
\end{align}
を満たすことはnに関する帰納法で示すことができる。ここでは一意性のみチェックしておこう。
・一意性
二つの関数が共に仮定を満たしているとしよう。
n=-1の場合は で与えられているので良い。n=kまでOKだったとするとn=k+1においては微分方程式より;
\begin{align}
\cfrac{d}{dt}(f(k+1, t) - g(k+1, t))= -\lambda(f(k+1, t) - g(k+1, t))
\end{align}
これは解くことができて、
\begin{align}
f(k+1, t) - g(k+1, t) = c\cdot e^{-\lambda t}
\end{align}
である。これに初期条件を代入することでc=0がわかるのでn=k+1でも一致することが確かめられた。
ホエールのコメントと導出について
さて、以上二つの導出をみてきたが個人的には仮定Aのもとで二項近似を使った証明の方がスマートに済まされるので好みであるのだが、仮定の定式化のところで「小さな時間間隔」を用いてしまっていること、そしてNの極限をとるところでどうしても近似的な説明しかつかないのが少々気持ち悪いところである。一方で、微分を用いた仮定Bの方が直接的にポアソン分布が導けるので結果は嬉しいのだが、証明が少しスパッといかない。
P.G.ホーエルはどうやら二つ目の導出の方を意識してテキストの文章を書いているようである。最初の引用で下線を引いた「解析的に」示される、という記述や「二項分布の近似という任務によるものではない」というコメントからもそれを窺い知ることができる。
導出のどちらがいいかという問題については一長一短ではある。ただ、現実問題としては仮定Aぐらい雑に事象の発生頻度を観察したとしていても得られる近似精度は非常に高くなるので、実用上はどちらの仮定で解釈しても問題なく計算は進められるであろう。
λの解釈(強度と平均)
後半の議論に関わるところなので、定式化の中で導入したλの意味について少し考えてみよう。仮定Bの設定のもとだと、λは次のようにかけた;
\begin{align}
\cfrac{dp(t)}{dt} = \lambda
\end{align}
左辺は、ある一瞬間における事象の起こりやすさを表しているので、つまりλは瞬間的な発生の大きさを表す。この意味でλを強度(intensity)と呼んでいるのは納得のいくことだと思う。
一方で、このλというのはポアソン分布において重要な意味をもつ指標であった。
\begin{align}
f(X=n, t) = \cfrac{(\lambda t)^ne^{-\lambda t}}{n!}
\end{align}
はスタートから時間tの間に起こる回数がnとなる確率であり、Xは Poi(λt)にしたがう確率変数であった。
ここで時間tというのはなにがしかの単位(秒とか分とか)を暗に仮定している書き方であった。それでは、発生頻度を単位時間あたりで考えるとどうなるだろうか。つまり、t=1を代入すると;
\begin{align}
f(n, 1) &= \cfrac{(\lambda)^ne^{-\lambda}}{n!} \\
\therefore X & \sim \mathrm{Poi}(\lambda)
\end{align}
となり、これは単位時あたりに事象が起こる確率というのが、平均λのポアソン分布にしたがうというよく知られた結果を与える。この文脈から見ると強度λは単位時間あたりの発生回数ということもできる。
やや蛇足であるが、この単位時間あたりというのは一つポイントで、例えば;
「1分間に平均5回発生するポアソン過程」と「1分間に平均10回発生するポアソン過程」では強度が異なるので異なる事象である。一方で、「1分間に平均5回発生するポアソン過程」と「一時間に平均300回発生するポアソン過程」というのは単位のとり方が異なるだけであって強度は同じなので事象としては全く同じものとなる。
「平均λで発生する」という文言を見た場合、それがどうのような時間スケールにおける平均のことを指しているのか気を払わないといけない。
さらに蛇足になるが、仮定2の話の段階でという表記を一瞬だけ用いた。これは、仮定2だけだと大域的にと一定になってくれないのではないか?という警戒からきたものであった。
「1分間に平均5回発生するポアソン過程」を2分間で考えれば平均10回のポアソン過程になることは(2分割すれば組み合わせ的にわかるので)直感的にも納得がいくのだが、では分間で発生する回数は?と聞かれるとこれを回と答えて良いものだろうかと少し不安になる。
定理では時間t>0をあえて1(単位時間)にしないで色々とるように設定したので
\begin{align}
f(n, t) &= \cfrac{(\lambda t)^ne^{-\lambda t}}{n!} \\
\therefore X & \sim \mathrm{Poi}(\lambda t)
\end{align}
の式が得られ、 回と答えて大丈夫なんだなと納得できるのである。
ポアソン少数の法則と珍しい現象
以降は仮定の定式化の話とはもうお別れして、気になっていたもう一点(ポアソン近似)について考えてみたい。
よく標語的に語られるフレーズとして「珍しい事象の発生確率はポアソン分布で近似できる」vs「珍しさとポアソン分布はあまり関係ない」というものがある。この文言はどちらが正しいのだろうか。
結論から言うと、どちらも間違ってはいない。ただ、これだとそれぞれポアソン分布の一側面しか捉えられていないので、両者の齟齬に触れながら再検討してみたい。
ポアソン少数の法則
珍しい現象にポアソン分布が適用できるというのは基本的に正しい主張である。これを裏付ける定理がポアソン少数の法則であり、中心極限定理から導出されるものである。ポアソン近似定理がこれ自体として語られることがほとんどであるが、ここでは最も一般的な形で定理を紹介しよう。
ポアソン少数の法則
を互いに独立な確率変数の列とし、以下を満たすとする;
\begin{align}
&\cdot P(X_i) =\begin{cases}
p_{n, i} & (X_i = 1) \\
1-p_{n, i} & (X_i = 0)
\end{cases} \\
&\cdot \max_{i=1,2,\cdots , n} p_{n, i} \rightarrow 0 \quad (n \rightarrow \infty)\\
&\cdot {}^\exists \lambda > 0, \sum_{i=1}^n p_{n, i} \rightarrow \lambda \quad (n \rightarrow \infty)
\end{align}
このときに対して
\begin{align}
P \left(\sum_{i=1}^nX_i = k \right) \rightarrow \cfrac{\lambda^ne^{-\lambda }}{n!} \quad (n \rightarrow \infty)
\end{align}
が成立する。
ポアソン近似定理は独立同分布であるところの二項分布の場合を表現していることになる。
仮定のポイントになっているのはやはり観測nを大きくしたときに確率が一様に0に収束していることと、それらの総和は観測を増やしても極限λで上から押さえられていることである。
以下、最も応用例が多い二項分布の場合に限って話を進める。
珍しい事象にポアソン分布が使える派の主張の根拠を考えてみよう。事象に定理を適用して近似的に確率計算することを考えると、この事象は上の仮定に近い条件を満たす必要がある。nを大きくして行くときに(母集団にサンプル数を近づけたときに)その事象の発生確率が0に収束しなくてはならない。現実には確率(母比率)は所与のものなので変更は効かない(0に収束することはない)が、比率が小さければ仮定はある程度は満たしているので近似としてはそこそこの精度が得られるであろうと考えるのである。
この母比率が小さいという仮定が、「珍しい事象」と解釈されるわけである(例えば、宝くじの一等に当たることはとても珍しい。券数に対して当たりくじの比率が非常に小さいので)。
これは確率事象に時間的な要素を加味していないパターンなのでこのように「珍しい」という意味合いが付加されるのだが、一方で前のセクションまでで議論した時間依存パターンのポアソン過程に対しては必ずしも珍しい現象だけがポアソン分布にしたがうわけではないことがわかる。
先に登場した強度λの概念がそれにあたる。例えば単位時間が秒であり、このとき強度が100であったとしても仮定AやBを満たす事象は1秒あたり平均100回発生するポアソン分布にしたがうことがわかる。この状況で、僕らはこの事象を別に「珍しい事象!」などと思ったりはしないであろう。むしろめちゃめちゃ起きているではないか。
齟齬の起きるポイントは、視点をどこにおいているかという点からきているように思われる。前者であればポアソン近似を用いる母比率(小さいもの)そのものに視点をおいているので珍しいという感想を抱くし、逆に後者はポアソン近似を使うのはミクロな部分のみであり、元々はマクロな時間スケールな視点からみているので、その事象を珍しいとも思わない。
両者はポアソン近似を適切に用いており、したがって主張はどちらも正しいのである。
二つの例
最後に計算例を考えてみよう。
珍しい現象のポアソン近似
コロナ騒ぎで保健所などへの電話相談が増えているというニュースが最近よく聞かれたが、次のような問題を考えてみよう。
問.
千代田区の保健所には住民から1日平均45件の電話相談が寄せられることが統計的にわかっている(2020 1/16~5/31の平均件数)。この状況で、6/1の電話相談の件数が50件以下になる確率はいくらだろうか?
解答.
1日に電話をかけてくる人の総数をSとする。1日に電話をかける人の割合(=経験確率)は、千代田区民をN人とするとp=45/Nである。
まず、ある1人が電話をかける確率pは非常に小さいであろうということに注意されたい(千代田区民は45人に比べたらものすごく多いので)。つまり、これは珍しい現象である。したがってポアソン少数の法則(ポアソン近似)が使えて、
\begin{align}
P(S \le 50) \fallingdotseq \sum_{n=0}^{50} \cfrac{45^ne^{-45}}{n!} \fallingdotseq 0.79628
\end{align}
つまり80%ほどとなる。
さて、この値の妥当性が気になる。厳密な値を二項分布を用いて求めてみよう。
wikiによると千代田区の人口はおよそN=66000らしい。これを用いて解析ソフトRさんに超頑張ってもらうと、
\begin{align}
P(S \le 50) = \sum_{n=0}^{50} {}_N \mathrm{C}_n \left (\cfrac{45}{N} \right)^n \left (1-\cfrac{45}{N} \right)^{(N-n)} \fallingdotseq 0.79635
\end{align}
となる。驚くべき近似精度になっていることが理解していただけると思う。
また、準備と計算量においても両者は段違いである。二項分布の計算ではまず千代田区の人口が必要で、さらに二項係数の計算はとても人の手では処理しきれない膨大さがある。一方、ポアソン近似ならば平均とeに関する値がわかれば計算もかなり削減できるのでメリットが大きい。特に、千代田区の人口がわからなくても計算できてしまうのが大変面白い。珍しいって面白い!
珍しい現象をポアソン近似するタイプにはこのような問題が多いのでぜひ身近な例で考えてみてほしい。
珍しくない現象のポアソン分布
珍しくない派の人たちが考える時間依存型のパターンの例題もみてみよう。 こちらは正直バリエーションもあまりなくてイマイチ面白みに欠けるのだが。
問.
最近、羽田空港では航路変更に伴う運行効率の向上により、15~19時の4時間における1時間あたり平均発着回数を従来の80回から90回まで改善させることができた。ある日の15~19時台における発着回数として最も起こりうる回数はいくらか。ただし、飛行機の発着は仮定Bを満たすものとする。
解答.
この4時間で発着する飛行機の便数をとしよう。命題によりこれはに従う。最も起こりうる回数kとは、要するにX=kとなる確率が最大となるkのことである。確率をkに関する数列と捉えて比を考えていけばうまく解ける。
\begin{align}
P(X = k+1)÷P(X = k) &= \cfrac{360^{k+1}e^{-360}}{(k+1)!}÷ \cfrac{360^ke^{-360}}{k!} \\
&= \cfrac{360}{k+1}
\end{align}
これと1の大小をkに応じて場合分ければ良い。結果としては以下のような大小関係になる;
\begin{align}
P(0) < P(1) < \cdots < P(358) < P(359) = P(360) > P(361) > \cdots
\end{align}
したがって(予想どおり?)、最も起こりうる発着回数は359回と360回である。
問題としては以上だが、なんか、珍しくないポアソン分布としての特徴をあまり表現できていなので先の問題に比べると面白みに欠ける。面白いのはポアソン近似を行ってポアソン分布を導出するところであって、ポアソン分布そのものの強度がどうのこうのという話は実際のところ面白くはないのかもしれない。
ちなみに、この同率2位の発生確率であるが、またもRさんに頑張って計算してもらうと0.02102124くらいになる。最大といっても全体で見れば2%を占めるに過ぎないことがわかる。この周辺には同じくらいの値がひしめいているので、どんぐりの背比べ状態である。
まとめ
ポアソン分布をめぐる話題のほんの一部を今回取り上げてみた。
ホーエルの本に書かれていたコメントに沿って事象が持つべき仮定の数学的な定式化を考え、二通りの方法でポアソン分布が導かれることをみた。そして、ポアソン分布をめぐる二大派閥の主張(?)について自分なりの解釈を与えてみた。ポアソン少数の法則のステイトメントを与え、そして2つだけだがポアソン過程の例をホットな社会ニュースに絡めて取り上げてみた。
いずれの議論においても大事なのは、ポアソン近似をどこに用いているかというところであろう。議論が勃発する原因でもあり、現象理解を面白くする仕掛け人となっているのかもしれない。