教師あり学習は機械学習の中で最も基礎的かつ重要な手法であり、G検定でも頻出テーマです。
「入力データ」と「正解ラベル」がセットになったデータを使って学習し、未知のデータに対して予測や分類を行います。
教師あり学習の定義
- 概要
- 入力データ(特徴量)と出力(正解ラベル)が与えられ、それを正しく対応づけるようにモデルを訓練する。
- 目的は「未知のデータに対して正しいラベルを予測する」こと。
- 例
- 住宅価格予測(入力=部屋数、立地 → 出力=価格)
- メール分類(入力=本文テキスト → 出力=スパム/非スパム)
👉 試験ポイント:「教師あり学習は『正解ラベル付きデータ』を用いる」ことを押さえる。
教師あり学習の代表的タスク
1. 回帰(Regression)
- 数値予測を目的とするタスク。
- 代表例:住宅価格、株価、気温予測。
- アルゴリズム:
- 線形回帰(Linear Regression)
- リッジ回帰・ラッソ回帰(正則化付き回帰)
2. 分類(Classification)
- カテゴリ分類を目的とするタスク。
- 代表例:スパム判定、画像認識、疾病診断。
- アルゴリズム:
- ロジスティック回帰(Logistic Regression)
- サポートベクターマシン(SVM)
- k近傍法(k-NN)
- 決定木、ランダムフォレスト、勾配ブースティング
教師あり学習の代表的アルゴリズム
線形回帰(Linear Regression)
- 入力変数と出力の線形関係を学習。
- 例:
y = a1x1 + a2x2 + ... + b
ロジスティック回帰(Logistic Regression)
- 分類問題で使用。
- 出力を確率として解釈できる。
サポートベクターマシン(SVM)
- データを分離する最適な境界線(超平面)を見つける。
- マージン最大化の考え方が特徴。
k近傍法(k-Nearest Neighbors, k-NN)
- 入力データに最も近いk個のデータを参照し、多数決で分類。
- シンプルだが計算コストが高い。
決定木・ランダムフォレスト
- データを木構造で分岐させ、最終的な予測を行う。
- ランダムフォレストは複数の決定木をアンサンブル。
教師あり学習の応用例
- 医療診断(症状 → 疾病名の分類)
- 顧客分析(属性 → 購買傾向の予測)
- 自然言語処理(テキスト → 感情分類)
- 金融(過去データ → 与信スコア予測)
👉 社会実装の中心にある技術であり、G検定でも出題頻度が高い。
教師あり学習の課題
- 過学習(Overfitting)
- 学習データに過度に適合し、汎化性能が下がる。
- → ドロップアウト、正則化、交差検証で対応。
- データの偏り
- ラベルの偏りや不足により、モデルがバイアスを持つ。
- 特徴量設計の難しさ
- 適切な入力変数を選ぶことが性能に直結する。
まとめ
- 教師あり学習は「正解ラベル付きデータ」で学習する方式。
- 回帰(数値予測)と 分類(カテゴリ予測)が中心タスク。
- アルゴリズム例:線形回帰、ロジスティック回帰、SVM、k-NN、決定木、ランダムフォレスト。
- 課題は「過学習」「データバイアス」「特徴量設計」。
出題傾向
- 「教師あり学習の代表タスクは?」(回帰・分類)
- 「SVMの特徴」
- 「過学習を防ぐ方法」
練習問題(例題)
問題:次のうち、教師あり学習の代表的なタスクを正しく示しているものはどれか?
- クラスタリングと次元削減
- 回帰と分類
- 強化学習と探索
- ルールベースと推論
👉 正解:2