ポアソン分布が「分散が平均と等しい」というシンプルな性質を持っているのは、ポアソン分布が非常に特定の条件に基づいたモデルだからです。これに対し、二項分布や t分布など他の分布は、それぞれ異なる状況を表すため、ポアソン分布ほどシンプルな関係にはなりません。
1. ポアソン分布のシンプルさの理由
ポアソン分布のシンプルさは、「ある固定の単位時間内に独立した稀な事象が一定の頻度で発生する」モデルに由来します。この分布が成り立つのは以下の理由からです:
- 稀な事象のモデル:ポアソン分布は「ある事象が低頻度で独立に発生する状況」を前提としています。例えば、ある時間内に発生する事故や故障などの「カウントデータ」をモデル化します。
- 事象の独立性:発生する事象が互いに独立していると仮定しているため、確率構造が簡単になり、分散と平均が同じになります。
- 固定の発生率:単位時間内の発生回数の平均が固定されるため、分布がシンプルで分かりやすくなります。
この結果、ポアソン分布は単一パラメータ(発生率 λ)で分散と平均の両方が決まるという性質が生まれます。
2. 他の分布がシンプルでない理由
他の分布、例えば二項分布や t分布は、異なる状況やデータ特性をモデル化するため、ポアソン分布とは異なる分散と平均の関係を持っています。
二項分布
二項分布は、「独立した試行で成功する確率が一定のとき、n回の試行中に成功が何回あるか」を表す分布です。具体的には、以下のような特徴を持ちます:
- 試行回数と成功確率の2つのパラメータ:二項分布には試行回数 nと成功確率 p があり、これら2つのパラメータに応じて平均と分散が変わります。
- 分散は平均に比例しない:二項分布の平均は np、分散は np(1−p) です。成功確率 pの影響を受けるため、分散が平均と一致するとは限りません。
t分布
t分布は、母集団の分散が未知である場合の標本平均の推定に使われます。特に、標本サイズが小さい場合に正規分布ではなく t分布が使われることが多いです。特徴としては:
- 標本の自由度に依存:t分布の形状は自由度(データ数)に依存し、自由度が増えるほど正規分布に近づきます。
- 分散が変動:自由度に応じて分散が変動し、正規分布のような固定の分散を持ちません。そのため、ポアソン分布のように分散が平均と等しくなるというシンプルな性質はありません。
3. 他の分布とポアソン分布の根本的な違い
ポアソン分布がシンプルなのは、特定の稀な事象の発生回数に特化しており、モデルが単純な確率構造を持つからです。これに対して、二項分布や t 分布など他の分布は、複雑な状況や異なる仮定に基づいており、複数のパラメータ(試行回数、成功確率、自由度など)が関わります。そのため、平均と分散の関係も複雑になりがちです。
また、ポアソン分布は「稀に発生する離散事象のモデル」で、他の分布が扱う連続データや多試行の成功回数とは異なる背景があります。
じゃあ正規分布は?
正規分布はポアソン分布とはまた異なる性質を持っており、分散と平均が等しくなるような関係はありません。これは、正規分布が「多くの独立したランダムな要因が合わさって結果を生む」という過程に基づく分布であるためです。
正規分布の背景
正規分布は、多くのランダムな変動要因が合わさることで得られる分布です。この性質は中心極限定理により、元の分布が何であれ、十分多くの独立した要素の和や平均は正規分布に近づくことが証明されています。これは測定誤差や身長、体重など、多様な要因が積み重なって決まるデータに適しています。
正規分布では以下の特徴があります:
- 平均と分散が独立:正規分布は2つのパラメータで決まります。平均 μ と分散 σ2です。これらは互いに独立しており、平均が変わっても分散には影響を与えません。つまり、正規分布では分散が平均と等しくなるような構造にはなっていません。
- 平均と分散の関係:正規分布では分散はσ^2として固定されており、σ^2の値にかかわらず、分散と平均が一致するわけではありません。むしろ、分布の広がり(分散)は σ^2 に依存するため、広がりが大きい場合や小さい場合にも柔軟に対応できるようになっています。
ポアソン分布との違い
ポアソン分布と正規分布の最も大きな違いは、ポアソン分布が特に稀な離散事象のカウントを扱うのに対し、正規分布は多様な連続的な要因の積み重ねに対応していることです。
- ポアソン分布では、単位時間あたりの事象発生率というシンプルな条件から「分散 = 平均」という関係が自然に生まれます。
- 正規分布は多様なデータの分布に適用できるよう、平均と分散が独立しており、異なる組み合わせで多様な分布形を表せるように設計されています。そのため、正規分布は「分散が平均に等しい」という制約を受けません。
なぜ正規分布は多様に適用できるのか
正規分布は、データが「多くのランダムな要因の合計として生じる」という状況をモデル化します。これは、測定誤差や自然変動などでよく見られるため、一般的に応用範囲が広く、分散と平均が独立であることがむしろ実用的なのです。
===
"make you feel, make you think."
SGT&BD
(Saionji General Trading & Business Development)
説明しよう!西園寺貴文とは、常識と大衆に反逆する「社会不適合者」である!平日の昼間っからスタバでゴロゴロするかと思えば、そのまま軽いノリでソー◯をお風呂代わりに利用。挙句の果てには気分で空港に向かい、当日券でそのままどこかへ飛んでしまうという自由を履き違えたピーターパンである!「働かざること山の如し」。彼がただのニートと違う点はたった1つだけ!そう。それは「圧倒的な書く力」である。ペンは剣よりも強し。ペンを握った男の「逆転」ヒップホッパー的反逆人生。そして「ここ」は、そんな西園寺貴文の生き方を後続の者たちへと伝承する、極めてアンダーグラウンドな世界である。 U-18、厳禁。低脳、厳禁。情弱、厳禁。