統計学はAI・機械学習を理解するための基盤です。
データの代表値やばらつき、データ間の関係性を把握することで、モデル設計や評価の基礎を固めることができます。
平均(Mean)
定義
- データの中心的な値を示す代表値。
直感的理解
- 「典型的な値」を表す。
- 外れ値の影響を受けやすい。
応用例
- モデル予測の平均誤差(MSEの計算に利用)。
- 正規分布の中心。
分散(Variance)
定義
- データが平均からどれだけ散らばっているかを表す。
特徴
- 値が大きいほどデータのばらつきが大きい。
- 単位は元のデータの二乗になる。
標準偏差(Standard Deviation)
定義
- 分散の平方根をとった値。
特徴
- 元データと同じ単位を持つため直感的に理解しやすい。
- 「平均からどの程度離れているか」を表す。
応用例
- データの安定性の評価(株価のボラティリティ)。
- 外れ値検知。
相関係数(Correlation Coefficient)
定義
- 2つの変数がどの程度「一緒に動くか」を表す指標。
- 値の範囲: -1 ~ +1
- +1:完全な正の相関
- 0:相関なし
- -1:完全な負の相関
注意点
- 相関は因果関係を意味しない。
- 疑似相関(偶然の相関)に注意。
応用例
- 特徴量選択(相関が強すぎる特徴は冗長)。
- 経済データの関係性分析(株価と金利など)。
まとめ
- 平均:代表値
- 分散・標準偏差:ばらつき
- 相関係数:変数間の関係性
- AIでは「データの性質を理解するための必須ツール」として利用される。
出題傾向
- 「標準偏差が大きい/小さい意味は?」
- 「相関係数0.9はどういう関係を示すか?」
- 「相関は因果関係を意味するか?」
練習問題(例題)
問題:相関係数が -0.8 の場合、次の解釈として正しいものはどれか?
- 強い正の相関がある
- 弱い負の相関がある
- 強い負の相関がある
- 相関はない
👉 正解:3