3.1 教師あり学習

G検定

教師あり学習は機械学習の中で最も基礎的かつ重要な手法であり、G検定でも頻出テーマです。
「入力データ」と「正解ラベル」がセットになったデータを使って学習し、未知のデータに対して予測や分類を行います。


教師あり学習の定義

  • 概要
    • 入力データ(特徴量)と出力(正解ラベル)が与えられ、それを正しく対応づけるようにモデルを訓練する。
    • 目的は「未知のデータに対して正しいラベルを予測する」こと。
    • 住宅価格予測(入力=部屋数、立地 → 出力=価格)
    • メール分類(入力=本文テキスト → 出力=スパム/非スパム)

👉 試験ポイント:「教師あり学習は『正解ラベル付きデータ』を用いる」ことを押さえる。


教師あり学習の代表的タスク

1. 回帰(Regression)

  • 数値予測を目的とするタスク。
  • 代表例:住宅価格、株価、気温予測。
  • アルゴリズム
    • 線形回帰(Linear Regression)
    • リッジ回帰・ラッソ回帰(正則化付き回帰)

2. 分類(Classification)

  • カテゴリ分類を目的とするタスク。
  • 代表例:スパム判定、画像認識、疾病診断。
  • アルゴリズム
    • ロジスティック回帰(Logistic Regression)
    • サポートベクターマシン(SVM)
    • k近傍法(k-NN)
    • 決定木、ランダムフォレスト、勾配ブースティング

教師あり学習の代表的アルゴリズム

線形回帰(Linear Regression)

  • 入力変数と出力の線形関係を学習。
  • 例:y = a1x1 + a2x2 + ... + b

ロジスティック回帰(Logistic Regression)

  • 分類問題で使用。
  • 出力を確率として解釈できる。

サポートベクターマシン(SVM)

  • データを分離する最適な境界線(超平面)を見つける。
  • マージン最大化の考え方が特徴。

k近傍法(k-Nearest Neighbors, k-NN)

  • 入力データに最も近いk個のデータを参照し、多数決で分類。
  • シンプルだが計算コストが高い。

決定木・ランダムフォレスト

  • データを木構造で分岐させ、最終的な予測を行う。
  • ランダムフォレストは複数の決定木をアンサンブル。

教師あり学習の応用例

  • 医療診断(症状 → 疾病名の分類)
  • 顧客分析(属性 → 購買傾向の予測)
  • 自然言語処理(テキスト → 感情分類)
  • 金融(過去データ → 与信スコア予測)

👉 社会実装の中心にある技術であり、G検定でも出題頻度が高い。


教師あり学習の課題

  • 過学習(Overfitting)
    • 学習データに過度に適合し、汎化性能が下がる。
    • → ドロップアウト、正則化、交差検証で対応。
  • データの偏り
    • ラベルの偏りや不足により、モデルがバイアスを持つ。
  • 特徴量設計の難しさ
    • 適切な入力変数を選ぶことが性能に直結する。

まとめ

  • 教師あり学習は「正解ラベル付きデータ」で学習する方式。
  • 回帰(数値予測)と 分類(カテゴリ予測)が中心タスク。
  • アルゴリズム例:線形回帰、ロジスティック回帰、SVM、k-NN、決定木、ランダムフォレスト。
  • 課題は「過学習」「データバイアス」「特徴量設計」。

出題傾向

  • 「教師あり学習の代表タスクは?」(回帰・分類)
  • 「SVMの特徴」
  • 「過学習を防ぐ方法」

練習問題(例題)

問題:次のうち、教師あり学習の代表的なタスクを正しく示しているものはどれか?

  1. クラスタリングと次元削減
  2. 回帰と分類
  3. 強化学習と探索
  4. ルールベースと推論

👉 正解:2

タイトルとURLをコピーしました