3.3 強化学習

強化学習（Reinforcement Learning, RL） は、教師あり学習や教師なし学習とは異なるアプローチで注目されている手法です。
エージェント（学習主体）が環境と相互作用しながら試行錯誤を繰り返し、「報酬（Reward）」を最大化する行動戦略を学習します。
近年はゲームAIや自動運転、ロボット制御などで成果を挙げ、G検定でも頻出テーマです。

強化学習の仕組み
1. 基本構造
強化学習の種類
強化学習の代表例
強化学習の課題
まとめ
出題傾向
練習問題（例題）

強化学習の仕組み

基本構造

強化学習は 「エージェントと環境の相互作用」 として表現されます。

エージェント（Agent）：学習する主体（AI）。
環境（Environment）：エージェントが行動する場。
状態（State, S）：環境の現状を表す。
行動（Action, A）：エージェントが選択できる行動。
報酬（Reward, R）：行動の良し悪しを数値で返す指標。

📌 流れイメージ（テキスト図解）

状態S → エージェントが行動Aを選択 → 環境から報酬Rと新しい状態S'を得る

👉 ポイント：正解ラベルは存在せず、エージェントは「試行錯誤を通じて最適な行動方針」を学習する。

強化学習の種類

1. 価値ベースの手法

行動の「価値（期待される報酬）」を学習。
代表例：Q学習（Q-learning）、SARSA。

2. 方策ベースの手法

直接「行動方針（ポリシー）」を学習。
確率的に行動を選択することが可能。

3. アクター・クリティック（Actor-Critic）

価値ベースと方策ベースを組み合わせた手法。
学習の安定性と効率を両立。

強化学習の代表例

ゲームAI

Atariゲーム：Deep Q-Network（DQN）が人間を超えるスコアを達成。
AlphaGo（2016年）：ディープラーニング＋強化学習＋モンテカルロ木探索で囲碁世界チャンピオンに勝利。

ロボット制御

ロボットが「転ばずに歩く」動作を試行錯誤で学習。
シミュレーション環境で学習 → 実機へ転移。

自動運転

強化学習で最適な運転方針（加速・減速・ハンドル操作）を学習。

強化学習の課題

探索と活用のジレンマ（Exploration vs Exploitation）
- 新しい行動を試す（探索）か、既に良いと分かっている行動を繰り返す（活用）かのバランスが重要。
学習の効率性
- 報酬が sparse（希薄）な環境では学習が進みにくい。
- 多くの試行錯誤が必要。
安全性の問題
- 実世界での試行錯誤はリスク（例：自動運転の失敗）。

まとめ

強化学習は「環境と相互作用しながら報酬を最大化する学習」。
構成要素は 状態・行動・報酬。
手法には 価値ベース（Q学習）、方策ベース、アクタークリティック がある。
成功例：AlphaGo、Atariゲーム、自動運転、ロボット制御。
課題は 探索と活用のバランス、効率、安全性。

出題傾向

「強化学習の基本構成要素は？」（状態・行動・報酬）
「探索と活用のジレンマとは何か？」
「AlphaGoで利用された要素技術は？」

練習問題（例題）

問題：次のうち、強化学習の特徴を最も適切に説明しているものはどれか？

教師ありデータを用いて正解ラベルを予測する学習
正解ラベルのないデータからクラスタを見つける学習
環境と相互作用し、報酬を最大化するように行動を学習する方法
データの次元を圧縮して特徴を抽出する方法

👉 正解：3