強化学習(Reinforcement Learning, RL) は、教師あり学習や教師なし学習とは異なるアプローチで注目されている手法です。
エージェント(学習主体)が環境と相互作用しながら試行錯誤を繰り返し、「報酬(Reward)」を最大化する行動戦略を学習します。
近年はゲームAIや自動運転、ロボット制御などで成果を挙げ、G検定でも頻出テーマです。
強化学習の仕組み
基本構造
強化学習は 「エージェントと環境の相互作用」 として表現されます。
- エージェント(Agent):学習する主体(AI)。
- 環境(Environment):エージェントが行動する場。
- 状態(State, S):環境の現状を表す。
- 行動(Action, A):エージェントが選択できる行動。
- 報酬(Reward, R):行動の良し悪しを数値で返す指標。
📌 流れイメージ(テキスト図解)
状態S → エージェントが行動Aを選択 → 環境から報酬Rと新しい状態S'を得る
👉 ポイント:正解ラベルは存在せず、エージェントは「試行錯誤を通じて最適な行動方針」を学習する。
強化学習の種類
1. 価値ベースの手法
- 行動の「価値(期待される報酬)」を学習。
- 代表例:Q学習(Q-learning)、SARSA。
2. 方策ベースの手法
- 直接「行動方針(ポリシー)」を学習。
- 確率的に行動を選択することが可能。
3. アクター・クリティック(Actor-Critic)
- 価値ベースと方策ベースを組み合わせた手法。
- 学習の安定性と効率を両立。
強化学習の代表例
ゲームAI
- Atariゲーム:Deep Q-Network(DQN)が人間を超えるスコアを達成。
- AlphaGo(2016年):ディープラーニング+強化学習+モンテカルロ木探索で囲碁世界チャンピオンに勝利。
ロボット制御
- ロボットが「転ばずに歩く」動作を試行錯誤で学習。
- シミュレーション環境で学習 → 実機へ転移。
自動運転
- 強化学習で最適な運転方針(加速・減速・ハンドル操作)を学習。
強化学習の課題
- 探索と活用のジレンマ(Exploration vs Exploitation)
- 新しい行動を試す(探索)か、既に良いと分かっている行動を繰り返す(活用)かのバランスが重要。
- 学習の効率性
- 報酬が sparse(希薄)な環境では学習が進みにくい。
- 多くの試行錯誤が必要。
- 安全性の問題
- 実世界での試行錯誤はリスク(例:自動運転の失敗)。
まとめ
- 強化学習は「環境と相互作用しながら報酬を最大化する学習」。
- 構成要素は 状態・行動・報酬。
- 手法には 価値ベース(Q学習)、方策ベース、アクタークリティック がある。
- 成功例:AlphaGo、Atariゲーム、自動運転、ロボット制御。
- 課題は 探索と活用のバランス、効率、安全性。
出題傾向
- 「強化学習の基本構成要素は?」(状態・行動・報酬)
- 「探索と活用のジレンマとは何か?」
- 「AlphaGoで利用された要素技術は?」
練習問題(例題)
問題:次のうち、強化学習の特徴を最も適切に説明しているものはどれか?
- 教師ありデータを用いて正解ラベルを予測する学習
- 正解ラベルのないデータからクラスタを見つける学習
- 環境と相互作用し、報酬を最大化するように行動を学習する方法
- データの次元を圧縮して特徴を抽出する方法
👉 正解:3