3.2 教師なし学習

G検定

教師なし学習は、正解ラベルのないデータからパターンや構造を自動的に見つけ出す学習方法です。
ラベル付きデータを準備するのは時間とコストがかかるため、教師なし学習は「未知データの探索」や「データの潜在構造の理解」に強みを持ちます。
G検定では「クラスタリング」「次元削減」「代表的な手法と用途」が頻出です。


教師なし学習の定義

  • 概要
    • 入力データのみを用い、データ間の類似性や分布を学習する。
    • 正解ラベルは存在しない。
  • 目的
    • データを「分類・整理」したり、「重要な特徴を抽出」すること。

👉 試験ポイント:「正解ラベルがない」という特徴を押さえること。


教師なし学習の代表的タスク

1. クラスタリング(Clustering)

  • 概要:類似したデータを自動的にグループ化する。
  • 代表的手法
    • k-means法
    • 階層的クラスタリング
    • DBSCAN(密度ベース手法)
  • 応用例
    • マーケティング(顧客セグメンテーション)
    • ドキュメント分類(トピックモデリング)
    • 画像の類似度検索

👉 試験での狙われ方:「k-meansはクラスタリングの代表手法」


2. 次元削減(Dimensionality Reduction)

  • 概要:多次元データを情報をなるべく失わずに少数の次元に圧縮。
  • 目的
    • 計算効率を改善
    • データの可視化を容易にする
    • ノイズを除去
  • 代表的手法
    • 主成分分析(PCA: Principal Component Analysis)
    • 線形判別分析(LDA: Linear Discriminant Analysis)
    • t-SNE(t-Distributed Stochastic Neighbor Embedding)
  • 応用例
    • 高次元の遺伝子データの解析
    • 画像データの特徴抽出
    • 機械学習モデルの前処理

👉 試験での狙われ方:「PCAは次元削減の代表例」


教師なし学習の応用例

  • マーケティング:顧客をクラスタに分けてターゲティング戦略を立案
  • 自然言語処理:単語埋め込み(word2vec)による意味空間の学習
  • 異常検知:センサー値の異常を発見(教師なしで正常データの分布を学習)
  • 可視化:高次元データを2次元/3次元に縮約して理解

教師なし学習のメリットと課題

メリット

  • 正解ラベルが不要(データ準備のコスト削減)
  • データ探索や潜在的パターンの発見に強い
  • 新しい知見を導出できる

課題

  • 結果の解釈が難しい(「正解」が存在しないため)
  • 手法によってクラスタ数や初期値に依存
  • 可視化や評価の工夫が必要

まとめ

  • 教師なし学習は「正解ラベルなし」でデータのパターンを発見。
  • クラスタリング:データをグループ化(k-means, DBSCANなど)。
  • 次元削減:情報を保ちながら次元を圧縮(PCA, t-SNE)。
  • 応用範囲はマーケティング、異常検知、可視化など幅広い。

出題傾向

  • 「クラスタリングの代表的手法は?」
  • 「次元削減の代表例は?」
  • 「教師なし学習の特徴は?」=正解ラベルが不要

練習問題(例題)

問題:次のうち「教師なし学習」に分類される手法はどれか?

  1. ロジスティック回帰
  2. SVM(サポートベクターマシン)
  3. PCA(主成分分析)
  4. 決定木

👉 正解:3

タイトルとURLをコピーしました