7.1 基本統計(平均・分散・標準偏差・相関係数)

G検定

統計学はAI・機械学習を理解するための基盤です。
データの代表値やばらつき、データ間の関係性を把握することで、モデル設計や評価の基礎を固めることができます。


平均(Mean)

定義

  • データの中心的な値を示す代表値。
\(\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i\)

直感的理解

  • 「典型的な値」を表す。
  • 外れ値の影響を受けやすい。

応用例

  • モデル予測の平均誤差(MSEの計算に利用)。
  • 正規分布の中心。

分散(Variance)

定義

  • データが平均からどれだけ散らばっているかを表す。
\(Var(x) = \frac{1}{n} \sum_{i=1}^{n} (x_i – \bar{x})^2\)

特徴

  • 値が大きいほどデータのばらつきが大きい。
  • 単位は元のデータの二乗になる。

標準偏差(Standard Deviation)

定義

  • 分散の平方根をとった値。
\(\sigma = \sqrt{Var(x)}\)

特徴

  • 元データと同じ単位を持つため直感的に理解しやすい。
  • 「平均からどの程度離れているか」を表す。

応用例

  • データの安定性の評価(株価のボラティリティ)。
  • 外れ値検知。

相関係数(Correlation Coefficient)

定義

  • 2つの変数がどの程度「一緒に動くか」を表す指標。
\(r = \frac{Cov(x, y)}{\sigma_x \sigma_y}\)
  • 値の範囲: -1 ~ +1
    • +1:完全な正の相関
    • 0:相関なし
    • -1:完全な負の相関

注意点

  • 相関は因果関係を意味しない。
  • 疑似相関(偶然の相関)に注意。

応用例

  • 特徴量選択(相関が強すぎる特徴は冗長)。
  • 経済データの関係性分析(株価と金利など)。

まとめ

  • 平均:代表値
  • 分散・標準偏差:ばらつき
  • 相関係数:変数間の関係性
  • AIでは「データの性質を理解するための必須ツール」として利用される。

出題傾向

  • 「標準偏差が大きい/小さい意味は?」
  • 「相関係数0.9はどういう関係を示すか?」
  • 「相関は因果関係を意味するか?」

練習問題(例題)

問題:相関係数が -0.8 の場合、次の解釈として正しいものはどれか?

  1. 強い正の相関がある
  2. 弱い負の相関がある
  3. 強い負の相関がある
  4. 相関はない

👉 正解:3

タイトルとURLをコピーしました