教師なし学習は、正解ラベルのないデータからパターンや構造を自動的に見つけ出す学習方法です。
ラベル付きデータを準備するのは時間とコストがかかるため、教師なし学習は「未知データの探索」や「データの潜在構造の理解」に強みを持ちます。
G検定では「クラスタリング」「次元削減」「代表的な手法と用途」が頻出です。
教師なし学習の定義
- 概要
- 入力データのみを用い、データ間の類似性や分布を学習する。
- 正解ラベルは存在しない。
- 目的
- データを「分類・整理」したり、「重要な特徴を抽出」すること。
👉 試験ポイント:「正解ラベルがない」という特徴を押さえること。
教師なし学習の代表的タスク
1. クラスタリング(Clustering)
- 概要:類似したデータを自動的にグループ化する。
- 代表的手法:
- k-means法
- 階層的クラスタリング
- DBSCAN(密度ベース手法)
- 応用例:
- マーケティング(顧客セグメンテーション)
- ドキュメント分類(トピックモデリング)
- 画像の類似度検索
👉 試験での狙われ方:「k-meansはクラスタリングの代表手法」
2. 次元削減(Dimensionality Reduction)
- 概要:多次元データを情報をなるべく失わずに少数の次元に圧縮。
- 目的:
- 計算効率を改善
- データの可視化を容易にする
- ノイズを除去
- 代表的手法:
- 主成分分析(PCA: Principal Component Analysis)
- 線形判別分析(LDA: Linear Discriminant Analysis)
- t-SNE(t-Distributed Stochastic Neighbor Embedding)
- 応用例:
- 高次元の遺伝子データの解析
- 画像データの特徴抽出
- 機械学習モデルの前処理
👉 試験での狙われ方:「PCAは次元削減の代表例」
教師なし学習の応用例
- マーケティング:顧客をクラスタに分けてターゲティング戦略を立案
- 自然言語処理:単語埋め込み(word2vec)による意味空間の学習
- 異常検知:センサー値の異常を発見(教師なしで正常データの分布を学習)
- 可視化:高次元データを2次元/3次元に縮約して理解
教師なし学習のメリットと課題
メリット
- 正解ラベルが不要(データ準備のコスト削減)
- データ探索や潜在的パターンの発見に強い
- 新しい知見を導出できる
課題
- 結果の解釈が難しい(「正解」が存在しないため)
- 手法によってクラスタ数や初期値に依存
- 可視化や評価の工夫が必要
まとめ
- 教師なし学習は「正解ラベルなし」でデータのパターンを発見。
- クラスタリング:データをグループ化(k-means, DBSCANなど)。
- 次元削減:情報を保ちながら次元を圧縮(PCA, t-SNE)。
- 応用範囲はマーケティング、異常検知、可視化など幅広い。
出題傾向
- 「クラスタリングの代表的手法は?」
- 「次元削減の代表例は?」
- 「教師なし学習の特徴は?」=正解ラベルが不要
練習問題(例題)
問題:次のうち「教師なし学習」に分類される手法はどれか?
- ロジスティック回帰
- SVM(サポートベクターマシン)
- PCA(主成分分析)
- 決定木
👉 正解:3